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在 广大 计算 机 程序 员 和 工程 师 中 ， 几 乎 没有 人 不 知道 Patterson 和 Hennessy 的 大 作 ， 而 今 RISC-V 版 的 推 
出 ， 再 次 点 燃 了 大 家 的 热情 a。RISC=V 作 为 一 种 开源 体系 结构 ， 从 最 初 用 于 支持 科研 和 教学 ， 到 现在 已 发 展 为 
产业 标准 的 指令 集 a 正在 和 即将 阅读 本 书 的 年 轻 人 ， 你 们 不 仅 能 够 从 先行 者 的 智慧 中 理解 RISC=V 的 精髓 ;而 
且 有 望 创建 自己 的 RISC-V 内 核 ， 为 广阔 的 开源 硬件 和 软件 生态 系统 贡献 力量 。 

一 一 Krste Asanovi，RISC-V 基 金 会 主席 


教材 的 选择 往往 是 一 泪 丧 的 妥协 过 程 一 一 教学 方法 的 适 知识 点 的 覆盖 范围 、 文 辞 的 流畅 

性 、 内 容 的 严谨 度 、 成 本 的 高 低 等 都 需要 考虑 。 本 书 之 所 以 是 难得 一 见 的 好 书 ， 正 是 因为 它 能 满足 各 个 方面 的 
要 求 ， 不 再 需要 任何 妥协 。 这 不 仅 是 一 部 关于 计算 机 组 成 的 教科 书 ， 也 是 所 有 计算 机 科学 教科 书 的 典范 。 

一 一 Michael Goldweber，Xavier University 


无 论 是 对 于 80 后 、90 后 还 是 00 后 ， 这 都 是 一 本 应 该 珍藏 在 书架 上 ( 或 iPad 中 ) 的 计算 机 体系 结构 教材 。 
这 本 书 既 古老 又 新 颖 ， 不 仅 介绍 了 那些 伟大 的 原理 一 一 摩尔 定律 、 抽 象 、 加 速 经 常 性 事件 、 宛 余 、 存 储 层次 、 
并 行 和 流水 线 ， 而 且 使 用 现代 设计 对 这 些 伟大 原理 进行 了 说 明 。 
一 一 Mark D. Hill, University of Wisconsin 一 Madison 


本 书 不 仅 讲解 计算 机 体系 结构 ， 而 且 为 读者 准备 了 迎接 新 的 变化 与 挑战 的 “ 锦 圳 ”。 目 前 ， 半 导体 工艺 
技术 按 比例 缩小 的 困难 使 得 所 有 系统 功率 受 限 ， 而 移动 系统 和 大 数据 处 理 的 性 能 需求 却 仍 在 不 断 增 长 。 在 计算 
技术 的 新 时 代 ， 必 须 进 行 软 硬件 协同 设计 ， 并 且 系统 级 体系 结构 优化 与 部 件 级 优化 一 样 重要 。 


一 一 Christos Kozyrakis, Stanford University 


Patterson 和 Hennessy 讨 论 了 不 断 变化 的 计算 机 硬件 体系 结构 中 的 重要 议题 ， 强 调 硬件 和 软件 模块 在 不 同 
抽象 层次 上 的 交互 。 书 中 涵盖 各 种 硬件 和 软件 机 制 ，|/O 和 并 行 的 概念 贯穿 其 中 ， 全 景 式 呈 现 了 后 PC 时 代 的 计 
算 机 体系 结构 a 无论 是 平板 电脑 硬件 工程 师 还 是 云 计 算 软件 架构 师 ， 如 果 你 正 对 能 源 效率 和 并 行 化 问题 一 筹 莫 
展 ;， 那么 本 书 必 将 成 为 不 二 之 选 。 

Jae C. Oh, Syracuse University 
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作者 简介 


戴 维 . A. 帕 特 森 ( David A. Patterson ) 


Patterson 与 Hennessy 共 同 荣获 了 2017 年 度 
“图 灵 奖 ”， 以 表彰 他 们 在 计算 机 体系 结构 领域 的 
开创 性 贡献 。Patterson 现 为 Google 杰 出 工程 师 ， 之 
前 为 加 州 大 学 伯克利 分 校 教授 。 他 曾 任 ACM 主 席 一 
职 ,目前 是 ACM 和 IEEE 会 士 ， 美 国 艺术 与 科学 院 
和 计算 机 历史 博物 馆 院士 ， 并 入 选 了 美国 国家 工程 
院 、 国 家 科学 院 和 硅谷 工程 名 人 堂 。 他 领导 了 RISC 
I 的 设计 与 实现 工作 ， 并 且 是 RAID 项 目的 领导 者 。 


约翰 .上 . 享 尼 斯 ( John L. Hennessy ) 


Hennessy 与 Patterson 共 同 荣获 了 2017 年 度 
“图 灵 奖 ”。Hennessy 现 为 Google 母 公司 Alphabet 
的 董事 长 ， 之 前 曾 任 斯 坦 福 大 学 第 十 任 校 长 。 他 是 
IEEE 和 ACM 会 士 ， 美 国 国 家 工程 院 、 国 家 科学 院 、 
美国 哲学 院 以 及 美国 艺术 与 科学 院 院士 。 他 于 1981 
年 开始 研究 MIPS 项 目 ， 之 后 创办 MIPS Computer 
;Systems 公 司 ， 开 发 了 最 早 的 商用 RISC 微 处 理 器 之 
一 。 他 还 领导 了 DASH 项 目 ， 设 计 了 第 一 个 可 扩展 
cache 一 致 性 多 处 理 器 原型 。 


译 者 简介 


易 江 芳 


北京 大 学 信息 科学 技术 学 院 计算 机 系 副教授 ， 
长 期 从 事 微 处 理 器 体系 结构 设计 和 性 能 优化 科研 及 教 
学 工作 ， 近 年 来 主持 和 参加 了 国家 科技 重大 专项 、 
北京 市 科 委 等 十 余 项 科研 项 目 ， 参 与 了 北京 大 学 “ 众 
志 ” 系 列 自 主 CPU 系 统 芯片 的 设计 、 验 证 和 流 片 工 
作 ， 发 表 论 文 10 余 篇 。 曾 获 北大 方正 奖 教 金 ， 主 持 了 
北京 大 学 计算 机 体系 结构 实习 课程 的 教改 项 目 。 


刘 先 华 


北京 大 学 信息 科学 技术 学 院 计 算 机 系 副教授 ， 
长 期 从 事 计 算 机 系统 结构 和 编译 优化 科研 及 教学 工 
作 ， 近 年 来 主持 和 参加 了 国家 自然 科学 基金 、 国 家 
科技 重大 专项 等 十 余 项 科研 项 目 ， 参 与 研发 了 北京 
大 学 “ 众 志 ” 系 列 自主 CPU 及 配套 软 硬 件 系统 并 开 
展 了 相关 产业 化 工作 ， 发 表 论 文 20 余 篇 。 曾 获 首届 
“全 国 高 校 计 算 机 专业 优秀 教师 ”奖励 、 宝 钢 奖 教 
金 、 北 京 大 学 教学 优秀 奖 等 荣誉 。 


一 《人 STREE 一 一 


。 紧 跟 后 PC 时 代 的 发 展 浪潮 ， 关 注 并 行 技 
术 ， 新 内 容 涵盖 平板 电脑 、 云 基础 设施 、 
ARM ( 移动 计算 设备 ) 以 及 x86 ( 云 计算 ) 
体系 结构 ， 新 实例 包括 Intel Core i7、ARM 
Cortex-A53 以 及 NVIDIA Fermi GPU。 


全 面 切换 至 RISC-V ( 64 位 ) ， 精 选 并 讲解 
其 核心 指令 ， 同 时 结合 “硬件 /软件 接口 ” 
和 “详细 阐述 ”等 模块 ， 为 不 同 基础 和 侧 
重 的 读者 铺设 了 深入 研究 的 路 径 。 


新 增 和 矩阵 乘法 实例 ， 随 着 章节 推进 不 断 
“加 速 ” 程 序 ， 分 别 采 用 子 字 并 行 、 指 令 
级 并 行 、cache 分 块 技术 和 线程 级 并 行 ， 仅 
增加 24 行 代码 便 使 性 能 翻 了 200 信 ， 直 观 呈 
现 出 硬件 对 提高 能 效 的 重要 性 。 


强调 计算 机 体系 结构 中 的 8 个 伟大 思想 : 
并 行 ， 流 水 线 ， 预 测 ， 摩 尔 定律 ， 存 储 层 
次 ， 抽象 ， 加 速 经 常 性 事件 ， 可 靠 性 。 对 
这 些 思想 的 应 用 贯穿 全 书 ， 引 用 总 数 约 100 
次 ， 反映 了 技术 精髓 所 在 。 


本 书 网 站 booksite.elsevier. 
com/9780128122754 提 供 更 多 学 习 资源 ， 
可 下 载 RISC-V 软 件 工具 ， 还 有 用 于 教学 的 
PPT、 练 习题 答案 和 附录 等 。 


二 RF 全 吻 林 乡 






Reference Data 
RV641 BASE INTEGER INSTRUCTIONS, in alphabetical order 




















MNEMONIC FMT NAME DESCRIPTION (in Verilog) NOTE 
add, addw R ADD (Word) Rlrd] = Rirs!}+ Rirs2} 1) 
addi, acdiw 1 ADD lmmediate (Word) Rird] = RIrsl}j+ imm 1) 
and R AND RIrd} = RIrsll & RIrs2] 
andi 1 AND Immediate RFrdl = RfrsN & inm 

U Add Upper Immediate to PC Rfrd] = PC+ fimm, 12'b0} 
SB Branch EQual iRRIrs1]==RIrs2) 
PC=PC+ fimm, 1b')} 
bge SB Branch Greater than or Equal iRRIrs!}>=RIrs2) 
PC=PC*+ {imm.1b'0} 
bgeu SB Branch > Unsigned iRRIrs1]>=RIrs2) 2) 
PC=PC+ {imm, IbO} 
blr SB Branch Less Than 请 Rtrsij<Rirs2) PC=PC+ fimm, 1b'0} 
Ditu SB Branch Less Than Unsiened ifR[rsi]<RIrs2) PC=PC+ {imm,1b'0} 2) 
br SB Branch Not Equal RRIrsi}!=RIrs2) PC=PC+ fimm, 1b'0} 
1 Cont/Stat RegRead&Clear Rlrdj=CSR:CSR=CSR 有 ~RIrs!} 
1 Cont/StatRegRead&Clear Rlrd] = CSR:CSR = CSR & ~imm 
Imm 
-3 1 上 Cont/Stat.RegRead&Se Rfrdl =CSR:CSR = CSR |RIrsi] 
Cerrsi 1 Cont/StatRegRead&Set Rirdl =CSR: CSR =CSR | imm 
Imm 
csrrw 1 Cont/StarRceRead& Write Rlrd]=CSR;CSR= Rfrsl] 
srrw 1 Cont/StatReg Read& Write RIrd]=CSR:; CSR = imm 
Imm 
1 Environment BREAK Transfer control to debugger 
1 Environment CALL Transfer control to operating system 
1 Synch thread Synchronizes threads 
1 Synch Instr & Data Synchronizes writes to instruction 
Stream 

al U Jump& Link Rirdl = PC+4; PC = PC + {fimm,1b'0} 
jair T Jump 区 Link Register Rird] = PC+4: PC = Rirs] Jjrimm 3) 

i 1 Load Byte Rfrd] = 4) 

{SObMI}T), MERIErsT} rimm}(7:0)} 

lbu T load Byte Unsigned RErdl = 56'b0,MIRIrs} Himm}( 7:0)} 
1d I Load Doubleword Rfrdl = MIR[rs!]+imm](63:0) 
in 1 Load Halfword RIrd] = 4) 

{48'bMIICOS),. MIRIrst rimm}( 15:0)} 

inu 1 Load Halfword Unsigned Rird] = {48°bO,MIRIrsi} timm)}(15:0)} 
lui U Load Upper Immediate Rfrdl = £32bimm<31>, imm, 12'b0} 
lw 1 Load Word RIrd} = 4) 

{32'bM[}G D.MIRIrs! rimm}](31:0)} 
1 Load Word Unsigned RIrd| = £32'b0,MIRIrs!}+imml31:0)} 
R OR Rlrdi= Rirs1]| RIrs2} 
1 OR Immedinte RIrd] = RfrsH | imm 
Sb S$ Store Byte MIRIrsT] timm|(7:0)= RIrs2}(7:0) 

3 S Store Doubleword MIRIrsi rimm](63:0) = Rirs2}(63:0) 

Sh S Store Halfword MIRIrSIHimmj(135:0) > RIrs2](15:0) 
Bll,slly RShifi Lefi (Word) RIrd} = Rlrstl <« RIrs2} 1) 
S11i1,S1) iw 1 ShiR Left Immediate (Word) Rlrd] = Rlrsl] “< imm i) 
sit RSet Less Than RIrd] =(RfrsHj < Rirs21)2130 
Slti T Set Less Than Immediate Rlrd] = (RIrsll < imm)?1:0 
Sitiu 1 Set< lmmediate Unsigned Rlrdj=(RIrsl} <imm)?1;0 2) 
Situ R SectLess Than Unsigned Rfrd] =(R{rs1} < Rirs2]))? 1:0 2) 
Sra, Sraw R ShiftRight Arithmetic Rird] = Rirs1} >> RIrs2} 1,5) 

(Word) 
Srai,sraiw 1 Shift Right Arith Imm RIrd] = RIrs1] >> imm 1.5) 
(Word) 
Sri,sriw R Shift Right (Word) Rirdl = RIrsl] >> RIrs2} 1) 
1 Shif Right immediate Rirdj = Rirs1 >> imm 1) 
{Word) 

sub, subw R SUBtract (Word) Rlrd] = Rirs!] ~ Rirs3] b) 
SY S Store Word MIRIrsijrimm](31:0) = RIrs21(31:0) 
xor R XOR RIrd] = RIrs1} ~ RIrs2} 
xori 1 XOR immediate Rird = Rirsi] ~ imm 


Notes: 1) The Word version oniy operates on the rightmost 32 bits of a 64-bit regsiters 
2) Operation assumes unsigned integers [instecd of 2°s complemern) 
3) The least significant bit of the braneh address in jalr is set to 0 
1) (sigmed) Load instructions exterd the sign bit of data 10 fi the 64-bit register 
5) Replicates the sign bir 10 fill in the lefimast bits of the result during right shift 
网 Multiply with one opercund signed and one unsigned 


7 The Single version does a single-precision operation using the rightmost 32 bits of a 64- 


Air F regsiter 

WClassify wires a 10-bit mask to show which properties are true eg -i++ 
denorm, ...) 

The immediate field is vign-extended in RISC-V 





ARITHMETIC CORE INSTRUCTION SET 
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RV64M Multiply Extension 
MNEMONIC FMT NAME DESCRIPTION (in Verilog) NOTE 
mil ,mulw RMULtiply (Word) Rlrd] = (RIrs1}j * RIrs21X630) D) 
R MULriply upper Half Rird] = (RIrs1] * RIrs2}X127:04) 
moihse R_ MULipty upper Half Rlrd} = (RErs1] ® Rirs2]127:64) 6) 
Sign/Uns 
了 DIE R MULHplyupper Half Rirdl = (RIrs1}™ Rirs2N127:04) Ea | 
Unsigned 
div, divw R DiVide (Word) Rirdl = (RIrs1] /RIrs2D 1) 
divu R DIVide Unsigned Rlrd} =fRI1 /RIrs2) 2) 
LEM R REMainder (Word) Rlrd| = (RIrstl % RIrs2) 1) 
remtl, Tremuw R REMainder Unsigned Rird} = (R{rs1] % Rfrs2j) 1,2) 
(Word) 
RV64F and RV64D Floating-Point Extensions 
fld, {lw 1 Load (Word) Flrd] = MIRErsT}+imm] 1) 
SStore (Word) MIRIrsijrimm] = Ffrd] 1) 
t R ADD Flrd] = Flrs!} + Flrs2} 务 
sfsub.d R SUBtract Flrd] = FIrs1} -Fr 7) 
1.5, mal.d R MULiply Flrd] = Flrsl} * Flrs2] 7 
fdiv,s, tdiv.d R DIVide Flrd] = Flrs1}/ Flrs2] 7) 
ftsqrt.s, tsqrt.d R SOQuare RooT Hrdj = sqrttHirs1j) 办 
fmadd.s fmadd.d R Muliply-ADP Brdj= Ptrsijl* Flrs2] - Flr3l 
R Muliply-SUBtract Flrdj= FFss Flrs2} - Firs3} 7) 
R Negative Muluply-SUBtract Elrdl = (Flrsl}* Firs2}—Firs3) 7) 
R Negative Multiply-ADD Flrd] = AFIrsi}* Flrs2] + Flrs3) 7) 
R SIGN source Flrd] = { Flrs2}63>,FIrs1}<62:0>) 7) 
RNegative SiGN source Flrd] = + (!F[rs2}63>), 7) 
Firs1}-62:0~)} 
R XorSiGN xoorce Flrd] = {Flrs2}<63> Flrs1]}=63>, 7) 
Flrs1}620>} 
Cmin.s, Em R MINimum Flrd] = (Flrs!] < Flrs2D ? Flrs1} 7) 
Flrs23] 
fmax.Ss, fmax.d R MAXimum Flrdl = (Firs}} > Flrs2]}) ? Flrsi1} 7) 
Flrs2] 
feq.3, feq.a R Compare Flou EQual Rirdj= (FIrsij== Flrs2p) ?1 :0 7) 
R Compare Float LessThan ”Rirdj= (Flrstl= Flrs2D?1:0 7 
RCompare Float Less than or = Rrd] = (Flrst}==F{rs2) ?21:0 7) 
R Classify Type Rirdj = classF[rsI) 7.8) 
R Move from Integer Flrd] = Rirsl} 7) 
R Move to Integer Rirdl = Flrsi} 7 
R Conver from DP to SP Flrd] = single(Tlrs1l) 
R Conven fom SP ito DP Flrdl = double(Flrs1]) 
R Convert from 32b integer 。 Flrd] = float(RIrstk31:0)) 7 
R Convert from 64b Integer Flrd] = floau RIrs1}(63:0)) 7) 
R Convert from 32b Int Flrd] = float(RIrs1131:0)) 2,7) 
Unsigned 
feyt jv, Ecvr .LIU R Convert from 64b Int Flrd] = float( RIrs1](63:0)) 2.7) 
Unsigned 
R Convert to 32b Integer RIrdK31:0) = integer(Flirs!)) 7) 
R Conver to64b Integer Rirdke3:0) = integerfFfrsih 党 
R_ Convert to 32b Int Unsigned RIrdk31:0) = integer(Ffrs1)) 2.7) 
Ecvr iu sy Eovt ,ius R Convento bdb nt Unsigned Rirdk6320) = integer(Flrs!)) pr 
CORE INSTRUCTION FORMATS 
31 27 26 2 24 20 19 5 14 43 il 7 6 0 








R fanct7 [| | rs ine | re | opcode | 
mo | sl | nes | ra | opcode | 
S | s | ime | inmftol | opeode | 
SB immlallsl | ro | sl | fn Timmt#:th | opcode | 
ET | 
mmo | | opcode 


PSEUDO INSTRUCTIONS 
MNEMONIC NAME 
z Branch = zero 

Branch #£ zero 
Absolute Value 


DESCRIPTION 
iRRIrs1]==0) PC=PC+ fimm,1b'0} 
iRRIrs1]!=0) PC=PC+ fimm, 1b'0} 
Flrd} = (Flrsi}= 0) ? Frst] : Flrst} 












FP Move Flrdj = Flrs!} 

FP negatc Flrd] = -Flrsi} 

Jump PC = limm,1b'0} 

Jump register PC = RIrsl} 

Load address Rlrd] = address 

Load imm Rirdj = imm 

Move Rlrdl = Rirsl} 

Negate RIrd] = -RIrs!1] 

No operation RI0] = RIO] 

Not -Rirst 

Return PC = RID} 

Set = zero Rirdj = (Rirsij==021:0 
Set # zero RIrdj = (RIrsH= 0)?1:0 
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USES 
beG 


REGISTER NAME, USE.CALLING CONVENTION 
REGISTER 
9 于 The constant valuc 0 N.A. 
; gp Global pointer 汉 


5 Temporaries 


x0 2ers 


x9 s1 Saved register Callee 














Caller 
Callee 
Caller 
OPCODES IN NUMERICAL ORDER BY OPCODE © 
MNEMONIC FMT OPCODE FUNCT3 ”FUNCI7 OR IMM HEXADECIMAL 
EE: 1 9000011 EP 
In 














固 罗 罗 克 万 太 手 为 为 太太 大 大 和 大 为 太一 mx 一 一 一 一 CC 一 一 一 -一 一 一 一 一 一 一 一 一 一 一 一 一 








SB 000 
SB v01 

SB 190 

SB 0 

SB 10 

SB 

1 

Ul 1101311 

1 1310013 oon 

1 i110011 000 

1 1110011 004 

1 1110041 v10 

1 ULOOLL 011 

1 1110011 +104 

1 1110011 140 

1 1110011 111 13/7 











IEEE 7S4 FLOATING-POINT STANDARD @ 


€-1) x (1 + Fraction) x 2( Ponem -Ba 
where Half-Precision Bias = 15, Single-Precision Bias = 127, 
Double-Precision Bias = 1023, Quad-Precision Bias = 16383 
IEEE Haif-, Single-, Double-. and Quad-Precision Formats: 


15 14 109 0 


31 30 23. 丰 0 


GI em [mm .下 


| 
63 62 52 5} 0 
ss] | 2 
112 111 0 


127 126 


Fraction 


MEMORY ALLOCATION 
SP —P 0000003rfrTrmn。 


STACK FRAME 


Argument 8 
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文艺 复兴 以 来 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ， 也 正 是 这 样 的 优势 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 辈出 、 独 领 风 骚 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ,我国 的 计算 机 产业 发 展 迅 猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ” 。 自 1998 年 开始 ,我们 
就 将 工作 重点 放 在 了 赣 选 、 移 译 国 外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson、 
McGraw-Hill、Elsevier、MIT、John Wiley & Sons 、Cengage 等 世界 著名 出 版 公司 建立 了 良 
好 的 合作 关系 ， 从 它们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum 、Bjarne Stroustrup、 
Brian W. Kernighan、 Dennis Ritchie、 Jim Gray、 Afred V. Aho 、John E. Hopcroft、 Jeffrey 
D. Ullman、 Abraham Silberschatz、William Stallings、Donald E. Knuth、 John L. Hennessy、 
Larry L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 
学 习 、 研 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 丛书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 易 力 相助 ， 国 内 的 专家 不 仅 提供 了 
中 肯 的 选 题 指 导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专门 为 其 书 的 中 译本 作 序 。 迄 今 ,“ 计 算 机 科学 丛书 ”已 经 出 版 了 近 
500 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书 
籍 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因 素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐渐 
深化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 和 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 善 尽 
美 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 公司 欢迎 老师 和 读者 对 我 们 
的 工作 提出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com = 
电子 邮件 : hzjsj@hzbook.com 
联系 电话 : (010 ) 88379604 
联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 ] 号 不 


邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 


赞 誉 | 
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教材 的 选择 往往 是 一 个 令 人 诅 丧 的 妥协 过 程 一 一 教学 方法 的 适用 度 、 知 识 点 的 覆盖 范 
围 、 文 辞 的 流畅 性 、 内 容 的 严谨 度 、 成 本 的 高 低 等 都 需要 考虑 。 本 书 之 所 以 是 难得 一 见 的 好 
书 ， 正 是 因为 它 能 满足 各 个 方面 的 要 求 ， 不 再 需要 任何 妥协 。 这 不 仅 是 一 部 关于 计算 机 组 成 
的 教科 书 ， 也 是 所 有 计算 机 科学 教科 书 的 典范 。 





Michael Goldweber, Xavier University 


我 从 第 1 版 开始 就 在 使 用 本 书 ， 到 现在 已 经 很 多 年 了 。 这 次 的 版 本 是 对 已 有 经 典 内 容 的 
又 一 次 完美 升级 。 从 桌面 计算 到 移动 计算 再 到 大 数据 、 云 计算 ， 技 术 的 发 展 为 嵌入 式 处 理 咒 
(如 ARM) 开拓 了 新 的 应 用 领域 ， 为 通过 软 硬 件 交互 来 提高 性 能 带 来 了 新 素材 。 所 有 这 些 都 
离 不 开 基本 的 组 成 原理 。 


一 一 Ed Harcourt, St. Lawrence University 


无 论 是 对 于 80 后 、90 后 还 是 00 后， 这 都 是 一 本 应 该 珍藏 在 书架 上 (或 iPad 中 ) 的 计 
算 机 体系 结构 教材 。 这 本 书 既 古老 又 新 颖 ， 不 仅 介绍 了 那些 伟大 的 原理 一 一 摩尔 定律 、 抽 
象 、 加 速 经 常 性 事件 、 宛 余 、 存 储 层次 、 并 行 和 流水 线 ， 而 且 使 用 现代 设计 对 这 些 伟大 原理 
进行 了 说 明 。 





一 一 Mark D. Hill, University of Wisconsin-Madison 


本 书 的 新 版 本 与 新 兴 的 敌人 和 人 式 和 众 核 (GPU) 系统 的 发 展 保持 同步 ， 当 前 的 发 展 趋势 使 
得 平板 电脑 和 智能 手机 很 快 变 成 新 的 桌面 电脑 。 本 书 接纳 了 这 些 变 化 ， 但 仍 介绍 了 大 量 计算 
机 组 成 与 设计 的 基本 原理 ， 这 对 于 新 设备 和 新 系统 的 软 硬 件 设 计 人 员 来 说 非常 有 用 。 


一 Dave Kaeli, Northeastern University 


本 书 不 仅 讲解 计算 机 体系 结构 ， 而 且 为 读者 准备 了 迎接 新 的 变化 与 挑战 的 “ 锦 塞 ”。 目 
前 ， 半 导体 工艺 技术 按 比例 缩小 的 困难 使 得 所 有 系统 功率 受 限 ， 而 移动 系统 和 大 数据 处 理 的 
性 能 需求 却 仍 在 不 断 增长 。 在 计算 技术 的 新 时 代 ， 必 须 进 行 软 硬件 协同 设计 ， 并 且 系 统 级 体 
系 结构 优化 与 部 件 级 优化 一 样 重要 。 

一 Christos Kozyrakis, Stanford University 


Patterson 和 Hennessy 讨论 了 不 断 变化 的 计算 机 硬件 体系 结构 中 的 重要 议题 ， 强 调 硬件 

和 软件 模块 在 不 同 抽象 层次 上 的 交互 。 书 中 涵盖 各 种 硬件 和 软件 机 制 ，VO 和 并 行 的 概念 贯 

穿 其 中 ,全 景 式 呈 现 了 后 PC 时 代 的 计算 机 体系 结构 。 无 论 是 平板 电脑 硬件 工程 师 还 是 云 计 
算 软 件 架 构 师 ， 如 果 你 正 对 能 源 效率 和 并 行 化 问题 一 筹 莫 展 ， 那 么 本 书 必 将 成 为 不 二 之 选 。 
一 一 Jae C. Oh, Syracuse University 


| 译 者 序 
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D. Patterson 和 本 Hennessy 是 计算 机 领域 的 知名 学 者 ， 他 们 为 计算 机 体系 结构 设计 和 
评估 以 及 产业 发 展 做 出 了 巨大 贡献 ， 并 产生 了 持久 影响 。 两 位 学 者 因此 获得 了 2017 年 图 
灵 奖 ， 这 是 当时 计算 机 体系 结构 领域 的 一 大 盛事 。 两 位 教授 合 著 的 Computer Organization 
and Design: The Hardware/Software Interface 及 其 姊妹 篇 Computer Architecture: 4 Quantitative 
Approach 堪 称 计算 机 体系 结构 学 科 的 “圣经 ” ， 是 计算 机 系统 设计 从 业者 的 必 读 经 典 。 自 20 
世纪 90 年 代 至 今 ， 北 京 大 学 在 国内 率先 使 用 这 两 本 著作 作为 本 科 及 研究 生计 算 机 体系 结构 课 
程 的 教材 ， 译 者 以 学 生 、 助 教 和 教师 的 不 同 身份 经 历 了 本 书 的 多 个 版 本 变迁 ， 深 感受 益 菲 浅 。 

D. Patterson 及 其 UC Berkeley 的 团队 提出 了 RISC ( Reduced Instruction Set Computer， 
精简 指令 系统 计算 机 )， 并 于 1982 年 推出 了 RISC-I 处 理 器 。J. Hennessy 于 1984 年 联合 创 
六 了 MIPS 公司 ， 而 UC Berkeley 团队 的 研究 成 果 则 通过 Sun 公司 的 SPARC 系列 处 理 需 在 
产业 界 发 挥 作用 。 这 些 都 对 后 续 诸多 处 理 器 的 设计 产生 了 极为 深远 的 影响 。2014 年 ， 在 D. 
Patterson 教授 的 领导 下 ，UC Berkeley 设计 并 推出 了 RISC-V 开放 指令 系统 。 该 指令 系统 继 
续 秉 承 前 四 代 指 令 系 统 简单 规整 的 特点 ， 同 时 又 尽 可 能 握 弃 之 前 指令 系统 的 各 种 缺陷 ， 具 有 
短小 精怪 、 便 于 扩展 、 易 于 实现 等 新 特点 。 值 得 一 提 的 是 ， 该 指令 系统 完全 开源 ， 这 大 大 地 
推动 了 硬件 开源 设计 的 发 展 。 

相应 地 ， 本 书 第 5 版 在 MIPS 和 ARM 版 的 基础 上 ， 特 别 推出 了 RISC-V 版 ， 这 满足 了 广 
大 读者 学 习 和 了 解 新 技术 及 其 发 展 的 需要 。 该 版 本 使 用 RISC-V 指令 系统 作为 实例 ， 抽 丝 剥 草 
般 呈 现 了 设计 一 套 新 指令 系统 所 需 的 技术 考虑 及 其 与 微 体系 结构 之 间 的 密切 联系 ， 真 正 做 到 了 
“ 知 其 然 ， 知 其 所 以 然 "， 这 正 是 国外 优秀 的 计算 机 体系 结构 研究 者 的 “底蕴 ”。 作 为 教育 界 同 
行 ， 我 们 非常 希望 本 书 能 够 帮助 国内 的 读者 积累 这 样 的 底蕴 。D. Patterson 教授 曾经 表示 过 ， 
RISC-V 的 未 来 在 中 国 。 我 们 也 特别 希望 这 部 经 典 著 作 之 RISC-V 版 中 译本 的 出 版 ， 能 够 对 我 
国 的 软 硬 件 生态 建设 和 发 展 有 所 贡献 ， 能 够 对 计算 机 体系 结构 领域 的 教学 和 科研 有 所 帮助 。 
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党 辉 副 教授 、 国 防 科 技 大 学 陈 微 教授 分 别 翻译 了 第 5 版 的 MIPS 及 ARM 版 ， 是 他 们 的 工作 
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前 言 | 


Computer Organization and Design: The Hardware/Software Interface, RISC-V Edition 


我 们 能 体验 的 最 美好 的 事情 莫 过 于 神秘 ， 它 是 所 有 真实 的 艺术 和 科学 的 源泉 。 
一 一 阿尔 伯 特 ， 爱 因 斯 坦 , 《我 的 信仰 》 1930 年 


关于 本 书 


我 们 认为 ， 在 学 习 计 算 机 科学 与 工程 时 ， 除 了 掌握 计算 的 基本 原理 外 ， 还 应 该 了 解 该 
领域 的 最 新 进展 。 同 时 ， 我 们 还 认为 ， 各 种 计算 领域 中 的 读者 都 应 学 习 计 算 机 系统 的 组 成 理 
论 ， 因 为 这 是 决定 计算 机 系统 的 功能 、 性 能 、 能 耗 甚至 最 终 成 功 与 否 的 关键 。 

现代 计算 机 技术 需要 各 个 计算 领域 的 专业 人 员 对 计算 机 软件 和 硬件 都 有 所 了 解 。 软 硬件 
在 不 同 层次 上 的 相互 影响 ， 恰 好 也 提供 了 一 个 理解 计算 基础 的 框架 。 不 管 你 的 关注 点 是 硬件 
还 是 软件 ， 专 业 是 计算 机 科学 还 是 电子 工程 ， 计 算 机 组 成 和 设计 的 核心 思想 都 是 相同 的 。 因 
此 ， 本 书 的 重点 是 展示 硬件 和 软件 之 间 的 关系 ， 并 重点 关注 现代 计算 机 的 基本 概念 。 

本 书 从 第 1 版 起 就 提出 了 以 上 观点 ， 最 近 从 单 处 理 器 向 多 核 微 处 理 器 的 转变 再 一 次 见 
证 了 这 个 颇 有 远见 的 观点 。 然 而 ， 编 程 人 员 无 视 我 们 的 忠告 ， 不 想 改造 程序 ， 只 想 依 赖 计算 
机 体系 结构 设计 者 、 编 译 器 设计 者 或 者 芯片 设计 者 来 让 自己 的 程序 运行 得 更 快 、 能 效 性 更 
好 一 一 这 样 的 时 代 已 经 一 去 不 复 返 了 。 为 了 运行 得 更 快 ， 需 要 把 程序 改造 成 并 行 的 。 让 程序 
员 尽 可 能 不 知道 它们 正在 使 用 的 底层 硬件 的 并 行 属性 ， 这 是 许多 研究 者 的 目标 ， 但 这 需要 伦 
费 很 长 时 间 才 能 实现 。 我 们 的 观点 是 ， 至 少 在 接 下 来 的 十 年 里 ， 如 果 想 让 程序 在 并 行 计算 机 
上 运行 得 更 为 高 效 ， 大 多 数 编程 人 员 还 是 需要 了 解 硬 件 / 软件 接口 的 。 

本 书 的 读者 包括 不 了 解 汇 编 语 言 或 者 逻辑 设计 ， 但 需要 了 解 计算 机 基本 组 成 的 人 ; 同时 
也 包括 拥有 汇编 语言 或 者 逻辑 设计 背景 ， 但 想 学 习 如 何 设计 计算 机 或 者 想 搞 清 楚 系统 的 工作 
原理 及 原因 的 人 。 


关于 另 一 本 书 


有 些 读者 可 能 已 经 熟悉 我 们 的 男 一 本 书 Computer Architecture: A Quantitative Approach 
(《 计 算 机 体系 结构 : 量化 研究 方法 》， 后 文 简称 为 《量化 研究 》)。 该 书 已 广 为 流 传 ， 经 常 以 
作者 姓名 命名 ， 称 为 Hennessy 和 Patterson。( 本 书 则 常 被 称 为 Patterson 和 Hennessy。) 我 们 
写 《 量 化 研究 》 的 动机 是 , 希望 能 够 使 用 坚实 的 工程 基础 、 成 本 /性 能 之 间 的 量化 分 析 和 折 
中 来 描述 计算 机 体系 结构 的 基本 原则 。 我 们 使 用 的 方法 是 ， 基 于 商业 系统 ， 将 实例 与 评估 相 . 
结合 ， 建 立 真实 的 设计 体验 。 我 们 的 目标 是 证 实 可 以 使 用 量化 分 析 的 方法 而 不 是 描述 性 方法 
来 学 习 计 算 机 体系 结构 。 和 希望 这 一 方法 有 助 于 培养 能 精准 理解 计算 机 的 专业 人 才 。 

本 书 的 大 多 数 读 者 并 不 一 定 要 成 为 计算 机 体系 结构 设计 者 。 但 是 ， 未 来 软件 系统 的 性 能 
和 能 效 性 ， 很 大 程度 上 取决 于 软件 设计 者 对 所 使 用 系统 的 基本 硬件 技术 的 了 解 程度 。 因 此 ， 
编译 器 设计 者 、 操 作 系统 设计 者 、 数 据 库 编程 人 员 以 及 大 多 数 其 他 软件 设计 人 员 需 要 对 本 书 
中 提 到 的 基本 原则 有 深入 的 理解 。 同 样 ， 硬 件 设计 人 员 也 需要 清楚 地 知道 自己 的 设计 对 软件 
应 用 程序 的 影响 。 
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因此 ， 本 书 不 仅仅 是 《量化 研究 》 一 书 的 子 集 ， 我们 已 经 对 本 书 进行 了 大 幅 修 订 以 满足 
不 同 读者 的 需要 。 我 们 非常 高 兴 地 看 到 《量化 研究 》 的 后 续 版 本 也 在 不 断 修订 ， 删 除了 大 量 
的 介绍 性 材料 。 相 比 第 1 版 ， 此 后 两 本 书 之 间 的 内 容重 倒 会 越 来 越 少 。 


关于 RISC-V 版 本 

选择 合适 的 指令 系统 对 于 计算 机 体系 结构 教材 来 说 至 关 重 要 。 不 管 是 否 为 主流 指令 系 
统 ， 我 们 都 不 希望 介绍 那些 具有 不 必要 的 新 奇特 性 的 指令 系统 。 理 想 情 况 是 ， 你 学 习 的 第 一 
个 指令 系统 应 该 是 一 个 典范 ， 就 像 你 的 初恋 一 样 。 令 人 惊讶 的 是 ， 你 学 习 的 第 一 个 指令 系统 
和 你 的 初恋 都 会 令 你 分 外 怀念 。 

由 于 当时 有 太 多 选择 ， 所 以 在 《量化 研究 》 的 第 1 版 中 我 们 提出 了 自己 的 RISC 风格 
指令 系统 。 之 后 ，MIPS 指令 系统 因 其 简洁 的 风格 而 日 益 受 到 关注 ， 我 们 在 本 书 第 1 版 时 选 
择 了 它 ， 并 且 《 量 化 研究 》 的 后 续 版 本 也 是 如 此 。MIPS 一 直 为 我 们 和 读者 提供 了 很 好 的 
服务 。 

20 年 来 ， 使 用 MIPS 指令 系统 的 芯片 成 千 上 万 ， 并 且 还 在 不 断 生产 出 来 ， 它 们 一 般 用 于 
舱 入 式 设备 ， 而 该 领域 的 指令 系统 几乎 不 可 见 ， 因此， 目前 很 难 找到 一 台 真 实 的 计算 机 ， 让 
读者 能 够 下 载 并 运行 MIPS 程序 。 

好 消息 是 ， 最 近 一 个 开放 的 RISC 指令 系统 首次 亮相 ， 并 快速 获得 了 不 少 追 随 者 。 它 就 
是 由 加 州 大 学 伯克利 分 校 ( UC Berkeley) 开发 的 RISC-V 指令 系统 ， 它 不 仅 消 除了 MIPS 指 
令 系 统 的 王 病 ， 而 且 还 具备 指令 系统 应 有 的 简洁 、 优 雅 和 现代 的 特点 。 

RISC-V 指令 系统 不 是 闭 源 的 ， 它 提供 了 一 套 开 源 的 模拟 器 、 编 译 器 、 调 试 器 等 ， 这 些 
都 很 容易 获得 。 它 甚至 还 提供 开源 的 使 用 硬件 描述 语言 编写 的 RISC-V 处 理 器 实现 。 除 此 之 
外 ， 很 快 还 会 提供 低 成 本 的 硬件 平台 ， 供 运行 RISC-V 程序 使 用 。 读 者 不 仅 可 以 学 习 这 些 设 
计 ， 还 能 修改 它们 并 贯穿 整个 实现 流程 ， 以 充分 了 解 这 些 修改 对 性 能 、 唱 片面 积 和 能 耗 方面 
的 影响 。 

这 对 于 计算 产业 和 教育 行业 来 说 是 一 个 令 人 激动 的 机 会 。 截 止 到 写 这 篇 前 言 之 时 , 已 经 
有 40 多 家 公司 加 入 到 RISC-V 基金 会 中 ,赞助 商 名 单 几 乎 守 括 了 除 ARM 和 Intel 以 外 的 所 有 
主要 厂商 ,， 包括 AMD 、Google、HP、IBM、Microsoft、NVIDIA 、Oracle 和 Qualcomm 公司 。 

正 是 因为 这 些 ， 我 们 为 本 书 撰写 了 RISC-V 版 本 ， 同 样 ,《 量 化 研究 》 也 有 对 应 版 本 。 

RISC-V 同时 提供 32 位 和 64 位 指令 系统 ， 它 们 的 指令 类 型 基本 相同 。 我 们 可 以 切换 指 
令 系 统 ， 并 保持 地 址 宽度 为 32 位 。 我 们 的 出 版 商 调 查 了 本 书 的 读者 群 ， 发 现 75% 的 读者 首 
选 大 型 或 中 型 地 址 空间 ， 因 此 我 们 选用 64 位 地 址 空间 ， 这 比 32 位 地 址 空间 更 有 意义 。 

相 比 MIPS 版 本 ，RISC-V 版 本 唯一 的 修改 就 是 那些 与 指令 系统 相关 的 描述 ， 主 要 影 
响 第 2、3 和 5 章 中 的 虚拟 存储 部 分 ， 以 及 第 6 章 中 的 VMIPS 示例 。 在 第 4 章 中 ， 我 们 改 
用 RISC-V 指令 ,修改 了 相关 的 图 表 ， 添 加 了 一 些 “ 详 细 阐 述 ” 模 块 ， 这 些 变 化 没有 我 们 
想象 中 那么 复杂 。 第 1 章 和 其 余 的 附录 几乎 没有 变化 。 由 于 存在 大 量 的 在 线 文 档 ， 并 且 与 
RISC-V 相关 的 修改 过 多 ， 这 使 得 MIPS 版 本 中 的 附录 A 很 难 被 替换 (附录 A 是 指 “ 汇 编 器 、 
链接 器 和 SPIM 模拟 器 " ， 详 见 MIPS 第 5 版 )。 另 外 , 第 2、3 和 5 章 中 包含 上 百 条 RISC-V 
指令 的 快速 概览 ， 这 些 指令 都 不 在 本 书 详细 介绍 的 RISC-V 核心 指令 范围 内 。 

请 注意 ,我们 并 没有 正式 地 、 永 久 地 切换 到 RISC-V 指令 系统 。 比 如 ， 除 了 新 出 的 
RISC-V 版 本 ， 目 前 还 可 以 购买 本 书 的 ARMv8 版 和 MIPS 版 。 未 来 存在 如 下 可 能 性 : 读者 需 
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要 所 有 不 同 指令 系统 的 版 本 ， 或 可 能 只 需要 一 个 版 本 。 船 到 桥头 自然 直 ， 目 前 我 们 期 待 你 对 
此 次 修改 的 反馈 。 


第 5 版 中 的 改变 


在 本 书 的 第 5 版 中 我 们 有 6 个 主要 的 修订 目标 : 

e 使 用 实际 运行 的 实例 来 证 实 理解 硬件 的 重要 性 。 

e 对 于 第 1 章 中 提 到 的 8 个 伟大 思想 ， 在 后 面 每 次 应 用 这 些 思想 时 予以 突出 显示 。 

e 更 新 实例 以 反映 从 PC 时 代 到 后 PC 时 代 的 转变 。 

e 将 和 IO 有 关 的 资料 分 布 到 书 中 各 章节 ， 而 不 是 将 其 作为 单独 的 一 章 。 

e。 更 新 技术 内 容 ， 以 反映 自 2009 年 第 4 版 出 版 以 来 工业 界 的 变化 。 

e 将 附录 和 可 选 章节 放 到 网 上 ， 而 不 是 放 到 CD 中 ， 这 样 可 降低 成 本 ， 并 使 得 本 书 和 电 

子 书 一 样 方便 。 

在 详细 讨论 这 些 修 订 目 标 之 前 ， 我 们 先 看 一 看 下 表 。 它 展示 的 是 分 别 为 软 硬 件 人 员 设 
计 的 导读 方案 。 不 论 自 身 经 验 和 关注 点 如 何 , 第 1、4、5 和 6 章 都 出 现在 每 一 种 导读 方案 
中 。 第 1 章 讨 论 了 能 耗 的 重要 性 ， 并 介绍 它 是 如 何 促使 微 处 理 器 从 单 核 向 多 核 转变 的 ， 同 时 
还 会 介绍 计算 机 体系 结构 的 8 个 重要 思想 。 第 2 章 对 于 硬件 读者 来 说 可 能 是 复习 性 材料 , 但 
对 于 软件 读者 来 说 则 是 必 读 材料 ， 特 别 是 那些 对 学 习 编译 器 和 面向 对 象 编 程 语言 感 兴趣 的 读 
者 。 第 3 章 适合 那些 对 数据 通路 或 者 浮 点 运算 感 兴趣 的 读者 ， 有 些 读者 可 能 会 跳 过 第 3 章 。 
不 过 ,我们 将 在 这 一 章 介 绍 关于 和 矩 阵 乘 法 的 运行 实例 ， 展 示 如 何 采 用 子 字 并 行 的 方法 将 性 能 
提高 4 倍 ， 因 此 不 要 跳 过 3.6 一 3.8 节 。 第 4 章 介 绍 了 流水 线 处 理 器 。4.1 节 、4.5 节 和 4.10 
节 给 出 了 概述 ，4.12 节 为 那些 关心 软件 的 读者 提供 了 进一步 改善 矩阵 乘法 性 能 的 方法 。 对 于 
硬件 人 员 来 说 ， 第 4 章 是 核心 内 容 。 另 外 ， 读 者 可 以 根据 知识 背景 的 不 同 ， 选 择 是 否 首先 阅 
读 附录 A 中 的 逻辑 设计 部 分 。 最 后 一 章 讨 论 多 核 、 多 处 理 器 和 集群 系统 ， 这 一 章 是 全 新 的 内 
容 ， 因 此 所 有 读者 都 应 该 阅读 。 本 版 中 进行 了 重大 组 织 结构 调整 ， 这 使 得 许多 思想 的 引入 更 
加 自然 ,阐述 更 加 深入 ,例如 GPU、 仓 储 级 计算 机 以 及 集群 系统 中 的 关键 一 一 网 卡 的 软 硬 件 
接口 设计 。 
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仔细 阅读 ” 驳 机 闲 时 阅读 Zr 参考 阅读 ZX 
回顾 阅读 背景 阅读 reX 

本 书 第 5 版 的 6 大 修订 目标 中 ， 首 要 目标 是 使 用 实例 证 实 理解 现代 硬件 对 于 提高 性 能 
和 能 效 的 重要 性 。 正 如 之 前 提 到 的 ， 为 将 矩阵 乘法 的 性 能 提高 4 倍 ， 我 们 在 第 3 章 中 介绍 了 
子 字 并 行 技术 。 在 第 4 章 中 ,我 们 通过 循环 展开 将 性 能 又 提高 2 倍 ， 这 说 明了 指令 级 并 行 技 
术 的 有 效 性 。 在 第 $ 章 中 ， 通 过 使 用 cache 块 优化 技术 ,我们 将 抢 阵 乘法 的 性 能 再 次 成 倍 提 
升 。 最 后 ， 在 第 6 章 中 ,我 们 使 用 16 个 处 理 器 通过 线程 级 并 行 技 术 获 得 了 14 倍 的 性 能 加 
速 。 上 述 4 项 优化 加 在 一 起 ， 只 在 原始 矩阵 乘法 示例 中 添加 了 24 行 C 代码 。 

第 二 个 修订 目标 是 ， 指 出 计算 机 体系 结构 中 的 8 个 重要 思想 ， 并 在 其 出 现时 予以 突出 显 
示 ， 以 此 来 帮助 读者 从 树木 中 找 出 森林 ， 尽 早 建立 对 计算 机 系统 的 整体 认 知 。 本 书 中 有 将 近 100 
次 提 及 这 8 个 重要 思想 ， 每 一 章 中 对 重要 思想 的 举例 都 不 少 于 7 个 ， 每 一 个 重要 思想 都 至 少 被 
提 及 5 次 。 通 过 并 行 、 流 水 线 和 预测 技术 改善 性 能 是 三 种 最 流行 的 重要 设计 思想 ， 另 一 个 重要 
思想 就 是 摩尔 定律 。 在 第 4 章 中 ， 与 处 理 器 相关 的 例子 是 最 多 的 。 这 并 不 奇怪 ， 因 为 计算 机 体 
系 结构 设计 者 最 关注 的 可 能 就 是 处 理 器 。 在 每 个 章节 都 可 以 发 现 的 一 个 重要 思想 就 是 通过 并 行 
改善 性 能 。 这 是 个 令 人 愉快 的 现象 ， 因 为 最 近 在 本 领域 和 本 书 的 这 个 版 本 中 都 在 强调 并 行 性 。 

本 书 的 第 三 个 修订 目标 是 ， 通 过 我 们 的 实例 和 材料 使 读者 认识 到 计算 技术 正 从 PC 时 代 
向 后 PC 时 代 转 变 。 因 此 ,第 1 章 深入 到 平板 电脑 而 不 是 个 人 电脑 内 部 ， 第 6 章 描述 了 云 计 


算 基 础 设施 。 我 们 还 介绍 了 ARM， 这 是 后 PC 时 代 个 人 移动 设备 的 指令 系统 选择 ， 与 之 对 应 
的 是 ，x86 是 PC 时 代 和 云 计算 时 代 的 主流 指令 系统 。 

第 四 个 修订 目标 是 将 IO 相关 内 容 分 散 到 整 本 书 中 ， 而 不 是 集中 在 独立 的 一 章 。 这 和 我 
们 在 第 4 版 中 将 并 行 相 关内 容 分 散 到 整 本 书 中 一 样 。 本 书 的 IO 相关 内 容 可 以 在 1.4 市 、4.9 
节 、5.2 节 、5.5 节 、5.11 节 和 6.9 节 中 找到 。 这 样 做 的 初 囊 是 ， 如 果 IO 没有 独立 成 草 ， 那 
么 读者 (和 教师 ) 可 能 更 容易 阅读 和 使 用 这 些 内 容 。 

计算 机 体系 结构 是 一 个 快速 发 展 的 领域 ， 相 关 书 籍 的 重要 目标 之 一 就 是 更 新 技术 内 容 。 
新 版 本 的 书 也 需要 如 此 ， 这 就 是 我 们 的 第 五 个 目标 。 本 书 选 择 的 运行 实例 是 对 后 PC 时 代 产 
生 重 要 影响 的 ARM Cortex A53 和 Intel Core i7。 其 他 重要 内 容 包 括 一 份 关 于 GPU 的 教程 ， 
它 解 释 了 GPU 中 独 有 的 术语 ; 此 外 ， 我 们 还 更 为 深入 地 介绍 了 构成 云 的 仓储 级 计算 机 和 
万 兆 字 节 以 太 网 卡 。 

最 后 一 个 目标 是 ， 为 保持 本 书 主体 部 分 简短 ， 并 与 电子 书 兼容 ， 我 们 将 可 选 阅读 材料 作 
为 附录 放 在 网 上 ， 而 不 是 像 之 前 那样 保存 在 附带 的 CD 上 。 

最 后 ， 我 们 还 更 新 了 本 书 的 所 有 练习 。 

虽然 发 生 了 不 少 变化 ， 但 我 们 依然 保留 了 旧版 本 中 那些 有 用 的 元 素 。 为 使 本 书 更 适合 作 
为 参考 书籍 ， 我 们 仍 在 新 术语 第 一 次 出 现时 在 页 边 给 出 它们 的 定义 。 书 中 名 为 “理解 程序 性 
能 ”的 模块 是 用 来 帮助 读者 理解 如 何 改善 程序 性 能 的 ， 同 样 , “硬件 /软件 接口 ”模块 是 用 来 
帮助 读者 了 解 该 接口 并 进行 软 硬 件 划 分 权衡 的 。 书 中 仍 保留 “重点 ”模块 ， 帮 助 读 者 从 一 片 
树木 中 看 出 森林 。“ 自 我 检测 ”部 分 在 每 一 章 的 结尾 都 附 有 答案 ， 可 以 帮助 读者 第 一 时 间 确 
认 自己 对 书 中 内 容 的 理解 。 本 版 本 也 包括 了 RISC-V 的 参考 数据 卡 9 ， 这 是 受到 了 IBM 360 系 
统 “ 绿 卡 ”的 启发 。 该 卡片 已 更 新 ， 适 于 在 书写 RISC-V 汇编 程序 时 作为 参考 资料 使 用 。 


教学 支持 。 

我 们 收集 了 大 量 的 资料 ， 帮 助教 师 使 用 本 书 进 行 授 课 。 只 要 教师 在 出 版 商 处 进行 注 
册 ， 就 能 获得 练习 答案 、 书 中 的 图 表 、 教 学 讲义 以 及 其 他 资料 。 除 此 之 外 ， 配 套 网 站 还 提 
供 了 开源 RISC-V 软件 的 下 载 链接 。 如 需 更 多 信息 ， 可 访问 出 版 商 网 站 : booksite.elsevier. 
com/9780128122754。 


结束 语 


从 后 续 的 致谢 一 节 可 以 看 到 ， 我们 花 了 大 量 的 时 间 来 进行 修订 。 这 本 书 多 次 再 版 ,经 过 
了 多 次 印刷 ， 我 们 也 有 机 会 不 断 完善 。 如 果 你 在 此 版 中 发 现任 何 一 处 错误 或 漏洞 ， 可 通过 电 
子 邮件 codRISCVbugs@mkp.com 联系 出 版 商 。 

本 书 的 这 一 版 本 是 Hennessy 和 Patterson 自 1989 年 长 期 合作 以 来 的 第 三 次 突破 。 由 于 
要 管理 一 所 世界 一 流 大 学 ， 这 意味 着 Hennessy 校长 无 法 再 对 编写 一 个 新 版 本 做 出 实质 性 的 
承诺 。 这 使 得 男 一 位 作者 再 次 感到 自己 像 一 个 没有 安全 措施 就 走 上 钢丝 的 人 。 因 此 ， 伯 克利 
的 同事 和 致谢 中 提 到 的 人 在 本 书 的 内 容 方面 发 挥 了 更 大 的 作用 。 无 论 如 何 ， 这 一 次 只 有 一 位 
作者 会 对 你 所 阅读 的 新 内 容 负责 。 

日 参考 数据 卡 见 本 书 封面 和 封底 的 背面 。 一 一 编辑 注 


日 关于 本 书 教 辅 资源 ， 只 有 使 用 本 书 作为 教材 的 教师 才 可 以 申请 ,需要 的 教师 请 访问 爱 思 唯 尔 的 教材 网 站 
https://textbooks.elsevier.com/ 进行 申请 。 一 一 编辑 注 
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节 、 图 表 和 性 能 评估 数据 。 感 谢 以 下 人 员 对 第 6 章 提 出 了 修改 建议 : David Kaeli ( Northeastern 
University )、Partha Ranganathan ( HP Labs)、David Wood ( University of Wisconsin )， 以 及 我 在 
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特别 感谢 Rimas Avizenis (UC Berkeley)， 是 他 改写 了 各 种 版 本 的 矩阵 乘法 并 提供 了 性 能 
数据 。 当 我 还 是 UCLA 的 研究 生 时 ， 我 和 他 的 父亲 一 起 工作 ， 能 与 Rimas 在 UC Berkeley 共 
事 是 一 件 美好 的 事情 。 

同时 ， 还 要 感谢 我 的 长 期 合作 者 一 一 Randy Katz ( UC Berkeley)， 他 帮助 我 提出 了 “计算 
机 体系 结构 中 的 重要 思想 ”的 概念 ， 并 将 其 作为 我 们 一 起 合作 开设 的 本 科 生 课程 的 教学 内 容 。 

我 还 要 感谢 David Kirk 和 John Nickolls 以 及 他 们 在 NVIDIA 的 同事 ( Michael Garland、 
John Montrym、 Doug Voorhies、 Lars Nyland、 Erik Lindholm、 Paulius Micikevicius 、 
Massimiliano Fatica、Stuart Oberman 和 Vasily Volkov)， 他 们 编写 了 第 一 个 深入 阐述 GPU 的 
附录 。 我 希望 能 再 次 表达 我 对 Jim Larus 的 感激 之 情 ， 最 近 他 刚 被 任命 为 EPFL 的 计算 机 和 
通信 科学 学 院 院 长 。 感 谢 他 愿意 在 汇编 语言 编程 方面 贡献 自己 的 专业 知识 ， 并 欢迎 本 书 的 读 
者 使 用 他 开发 及 维护 的 模拟 器 。 

还 要 感谢 Zachary Kurmas ( Grand Valley State University)， 是 他 在 原始 版 本 的 基础 
上 更 新 并 重新 设计 了 新 的 章 末 练习 。 原 始 版 本 由 Perry Alexander ( University of Kansas )、 
Jason Bakos ( University of South Carolina )、Javier Bruguera ( Universidade de Santiago de 
Compostela)、Matthew Farrens ( University of California, Davis)、 David Kaeli ( Northeastern 
University)、Nicole Kaiyan (University of Adelaide) 、John Oliver (Cal Poly, San Luis Obispo).、 
Milos Prvulovic ( Georgia Tech )、Jichuan Chang( Google)、Jacob Leverich ( Stanford)、Kevin 
Lim (Hewlett-Packard) 和 Partha Ranganathan (Google) 开发 。 

特别 的 感谢 送 给 Peter Ashenden ， 他 帮 有 我 们 更 新 了 课程 讲义 。 

感谢 下 面 这 些 老 师 ， 他 们 回复 了 出 版 商 的 调查 问卷 ， 审 阅 了 我 们 的 提议 ， 还 参加 了 各 
种 专题 小 组 。 专 题 小 组 人 员 如 下 : Bruce Barton ( Suffolk County Community College )，Je 企 
Braun ( Montana Tech ), Ed Gehringer ( North Carolina State ), Michael Goldweber ( Xavier 
University ), Ed Harcourt (St. Lawrence University ), Mark Hill ( University of Wisconsin, 
Madison ), Patrick Homer ( University of Arizona ), Norm Jouppi (HP Labs ), Dave Kaeli 
( Northeastern University ), Christos Kozyrakis ( Stanford University ), Jae C. Oh ( Syracuse 
University ), Lu Peng (LSU), Milos Prvulovic (Georgia Tech ), Partha Ranganathan ( HP 
Labs), David Wood ( University of Wisconsin), Craig Zilles ( University of Illinois at Urbana- 
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XIII 
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我 们 还 要 感谢 Morgan Kaufmann 这 个 大 家 庭 同意 在 Katey Birtcher 、Steve Merken 和 
Nate McFadden 的 带领 下 再 次 出 版 这 本 书 ， 没 有 他 们 我 当然 不 可 能 完成 。 还 要 感谢 负责 图 书 
制作 过 程 的 Lisa Jones 以 及 负责 封面 设计 的 Victoria Pearson Esser。 本 书 封面 巧妙 地 在 第 1 版 
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业余 时 间 将 本 书 改写 成 RISC-V 版 本 。Eric Love 也 是 如 此 ， 他 在 完成 博士 学 位 的 同时 编辑 了 
本 书 中 RISC-V 版 本 的 练习 。 我 们 都 很 兴奋 ， 想 看 看 RISC-V 在 学 术 界 和 其 他 领域 到 底 能 做 
些 什么 。 

以 上 共 提 到 近 150 人 ， 是 他 们 帮助 我 们 完成 了 新 书 ， 我 希望 这 是 迄今 为 止 我 们 最 好 的 一 
本 书 。 谢 谢 各 位 ! 


David A. Patterson 
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约翰 上. 享 尼 斯 (John L. Hennessy ) 
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是 IEEE 和 ACM 会 士 ， 美 国 国家 工程 院 、 国 家 科学 院 、 美 国 哲学 院 以 及 美国 艺术 与 科学 院 院 
士 。Hennessy 获得 的 众多 奖项 包括 : 2001 年 ACM Eckert-Mauchly 奖 ( 因 对 RISC 的 贡献 )， 
2001 年 Seymour Cray 计算 机 工程 奖 ，2000 年 与 Patterson 共同 获得 John von Neumann 奖章 。 
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中 。Hennessy 后 来 领导 了 共享 存储 器 控制 体系 结构 (DASH) 项 目 ,该 项 目 设计 了 第 一 个 可 
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计算 机 抽象 及 相关 技术 





pe = 

欢迎 阅读 本 书 ! 我 们 很 高 兴 有 机 会 来 分 享 令 人 兴奋 的 计算 机 系 | 人 类 文明 因为 那些 珀 们 不 
统 世 界 。 这 绝 不 是 一 个 枯燥 乏味 、 进 步 缓 慢 、 新 思想 在 忽视 中 凋零 。 | 候 思 索 即 可 完成 的 要 务 数 
的 领域 。 相 反 ! 计算 机 是 难以 置信 而 充满 活力 的 信息 技术 产业 的 产 | 重 的 增加 而 进步 
物 ， 其 各 类 相关 产品 约 占 美国 国民 生产 总 值 的 10%。 美 国 经 济 在 某 | 人 pw 
些 方面 已 经 与 信息 技术 密 不 可 分 ， 而 这 一 领域 正 按照 摩尔 定律 所 预 
示 的 那样 快速 发 展 。 这 个 不 同 寻常 的 行业 在 以 惊人 的 速度 拥抱 创新 。 在 过 去 的 30 年 中 , 已 
经 出 现 了 许多 新 型 计算 机 ， 这 些 新 型 计算 机 的 引入 导致 了 计算 产业 的 革命 ， 而 它们 很 快 又 被 
其 他 人 所 建造 的 更 好 的 计算 机 所 取代 。 

自从 20 世纪 40 年代 末 电子 计算 机 诞生 以 来 ， 这 场 创新 竞争 已 经 带 来 了 史无前例 的 进 
步 。 例 如 ， 如 果 运 输 行业 能 够 和 计算 机 行业 保持 同样 的 发 展 速度 ， 那 么 如 今 我 们 花 一 分 钱 就 
可 以 在 一 秒 钟 内 从 纽约 赶 到 伦敦 。 稍 微 思考 一 下 这 样 的 进步 会 如 何 改变 社会 一 一 居住 在 南 太 
平 洋 的 塔 希 提 岛 ， 而 工作 在 旧金山 ， 晚 上 去 莫斯科 参加 波 修 瓦 芭 鞋 舞 团 的 演出 一 一 你 就 能 理 
解 这 种 变革 的 意义 了 。 

沿 着 农业 革命 、 工 业 革命 的 发 展 方向 ， 计 算 机 促进 了 人 类 的 第 三 次 革命 一 一 信息 革命 。 
由 此 产生 的 人 类 智力 的 成 倍增 长 自然 而 深刻 地 影响 了 人 们 的 日 常生 活 ， 甚 至 改变 了 人 们 寻求 
新 知识 的 方式 。 现 在 有 了 一 个 新 的 科学 探索 方式 ， 即 计算 科学 家 加 入 了 理论 与 实验 科学 家 的 
行列 ， 共 同 探索 天 文学 、 生 物 学 、 化 学 和 物理 学 等 领域 的 前 沿 问题 。 

计算 机 革命 仍 在 继续 向 前 推进 。 每 当 计算 成 本 降低 为 原来 的 十 分 之 一 ， 计 算 机 的 发 展 机 
遇 就 会 成 倍增 长 。 原 本 出 于 经 济 因素 而 不 可 行 的 应 用 突然 变 得 切实 可 行 。 例 如 在 不 久之 前 ， 
下 述 各 项 应 用 还 曾经 只 是 “计算 机 科学 幻想 ”。 
车 载 计算 机 : 直到 20 世纪 80 年 代 初 微 处 理 器 的 价格 和 性 能 得 到 显著 改善 之 前 ， 用 计 
算 机 来 控制 汽车 几乎 是 天 方 夜 谭 。 如 今 ， 计算机 可 以 通过 控制 汽车 发 动机 降低 污染 、 
提高 燃油 效率 ， 还 能 通过 盲点 警示 、 车 道 偏离 警示 、 移 动 目标 检测 和 气囊 保护 实现 磁 
撞 时 对 乘客 的 保护 ， 从 而 增加 汽车 的 安全 性 。 
。 手 机 : 谁 曾 预想 到 计算 机 系统 的 发 展会 导致 全 球 半数 以 上 的 人 口 拥有 移动 电话 ， 并 让 
人 们 几乎 可 以 与 世界 上 任何 地 方 的 人 进行 交流 ? 
e@ 人 类 基因 组 项 目 : 以 前 用 以 匹配 和 分 析 人 类 DNA 序列 的 计算 机 设备 成 本 高 达 数 亿美 
元 。15 ~ 25 年 前 ， 这 个 项 目的 计算 机 成 本 要 高 出 10~100 倍 ， 那 时 ， 几 乎 没有 人 会 
考虑 加 入 这 个 项 目 。 目 前 ， 该 项 目的 计算 机 成 本 仍然 在 持续 下 降 ， 人 们 将 很 快 就 能 够 
获得 自己 的 基因 组 ， 从 而 量 身 定制 医疗 服务 。 
万 维 网 : 在 本 书 第 1 版 出 版 时 ， 万 维 网 还 不 存在 ， 而 现在 万 维 网 已 经 改变 了 我 们 的 社 
会 。 对 于 很 多 人 来 说 ， 网 络 已 经 取代 了 图 书馆 和 报纸 。 





和 “学 








e 搜索 引擎 : 随 着 万 维 网 内 容 的 规模 和 价值 的 增长 ， 如 何 找到 相关 信息 变 得 越 来 越 重 


要 。 如 今 ， 
会 变 得 举步维艰 。 


很 多 人 的 生活 都 很 大 程度 地 依赖 搜索 引擎 ， 如 果 没 有 搜索 引擎 ， 生 活 可 能 


显然 ， 计 算 机 技术 的 进步 几乎 影响 着 社会 的 方方面面 。 硬 件 的 进步 使 得 程序 员 能 够 创造 
出 奇妙 而 有 用 的 软件 ， 进 而 证 明了 为 什么 计算 机 无 所 不 在 。 现 在 的 科学 幻想 往往 预示 着 未 来 
最 具 影 响 力 的 应 用 ， 例 如 ， 虚 拟 现实 眼镜 、 无 现金 社会 以 及 自动 驾驶 汽车 都 即将 到 来 。 


1.1.1 传统 的 计算 应 用 分 类 及 其 特点 


从 智能 家 电 到 手机 再 到 最 大 的 超级 计算 机 ， 虽 然 在 计算 机 中 使 用 了 一 套 通用 的 硬件 技术 
( 见 1.4 节 和 1.5 节 )， 但 不 同 的 应 用 具有 不 同 的 设计 要 求 ， 并 以 不 同 的 方式 使 用 核心 硬件 技 


术 。 宽 泛 地 说 ， 计 算 机 主要 被 用 于 如 下 三 种 不 同 的 应 用 场景 中 。 

个 人 计算 机 ( Personal Computer，PC) 可 能 是 最 广为人知 的 计 
算 机 形式 ， 本 书 的 读者 几乎 都 在 广泛 使 用 。 个 人 计算 机 强调 以 低 成 
本 向 单个 用 户 交 付 良 好 的 性 能 ， 通 常 运行 第 三 方 软件 。 这 类 计算 方 
式 推动 了 许多 计算 技术 的 发 展 ， 尽 管 它 仅 有 35 年 的 历史 ! 

服务 器 是 过 去 曾 是 庞然大物 的 计算 机 的 现代 形式 ， 通 常 只 能 通 
过 网 络 访问 。 服 务 器 适用 于 执行 巨大 的 工作 负载 ， 其 中 可 能 包括 单 
个 复杂 应 用 通常 是 科学 或 工程 应 用 程序 ; 也 可 以 执行 许多 小 型 
作业 ， 例 如 在 构建 大 型 Web 服务 器 时 发 生 的 任务 。 这 些 应 用 程序 通 
常 来 自 其 他 来 源 (如 数据 库 或 模拟 系统 ) 的 软件 ， 但 往往 会 针对 特定 
需求 进行 修改 或 定制 。 服 务 器 采用 与 桌面 计算 机 相同 的 基础 技术 构 
建 ， 但 能 够 提供 更 强大 的 计算 、 存 储 和 输入 /输出 能 力 。 通 常情 况 
下 ， 服 务 器 更 强调 可 靠 性 ， 因 为 相 比 单 用 户 个 人 计算 机 而 言 ， 服 务 
器 发 生 故 障 的 代价 更 高 。 

服务 器 的 成 本 和 功能 范围 跨度 极其 广泛 。 低 端的 服务 器 可 能 比 
一 台 不 带 屏 幕 和 键盘 的 桌面 计算 机 稍 贵 一 些 ， 大 约 需 要 一 千 美 元 。 
此 类 低 端 服务 器 通常 用 于 文件 存储 、 小 型 商业 应 用 或 简单 的 web 服 
务 。 高 端的 服务 器 则 是 超级 计算 机 ( supercomputer)， 当 前 的 超级 计 
算 机 一 般 由 成 千 上 万 颗 处 理 器 和 数 太 字 节 (terabyte) 的 内 存 组 成 ， 
且 成 本 高 达 几 千 万 甚至 数 亿美 元 。 超 级 计算 机 通常 用 于 高 端 科学 和 
工程 计算 ， 例 如 天 气 预报 、 石 油 勘探 、 蛋 白质 结构 测定 和 其 他 大 规 
模 问 题 。 尽 管 这 样 的 超级 计算 机 代表 了 最 高 的 计算 能 力 ， 但 它们 只 
占据 了 服务 器 中 相对 较 小 的 一 部 分 ,在 整个 计算 机 市 场 中 所 占 总 销 
售 收 入 的 比例 也 很 小 。 

嵌入 式 计 算 机 是 计算 机 中 最 大 的 一 个 类 别 ， 其 应 用 场景 和 性 能 
范围 也 最 为 广泛 。 上 藤 和 人 式 计算 机 包括 汽车 、 电 视 机 中 的 微 处 理 器 或 
计算 机 ， 以 及 控制 飞机 或 货船 的 处 理 器 网 络 。 舱 入 式 计 算 系 统 的 设 
计 目 标 是 运行 单一 应 用 程序 或 者 一 组 相关 的 应 用 程序 ， 并 且 通 常 和 
硬件 集成 在 一 起 以 单一 系统 的 方式 一 并 交付 。 因 此 ， 尽 管 嵌 入 式 计 
算 机 的 数量 庞大 ， 但 仍然 有 大 多 数 用 户 从 来 没有 意识 到 他 们 正在 使 
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个 人 计算 机 : 用 于 个 人 使 
用 的 计算 机 ， 通 常 包 含 图 
形 显示 器 、 键 盘 和 鼠标 


服务 器 : 用 于 为 多 个 用 户 
并 行 运行 大 型 程序 的 计算 
机 ， 通 常 只 能 通过 网 络 
访问 


超级 计算 机 : 具有 最 高 的 
性 能 和 成 本 的 一 类 计算 
机 ， 一 般 被 配置 为 服务 器 
且 通 常 耗 费 数 千 万 美元 其 
至 数 亿 美元 。 


太 字 节 : 原始 的 定义 为 
1 099 511 627 776 ( 24 ) 
字 节 ， 而 通信 和 辅助 存储 
系统 研发 人 员 用 其 表示 
1 000 000 000 000 (102 ) 字 
节 。 为 了 减少 混淆 ， 本 书 使 
用 太 比 字 节 (tebibyte, TiB) 
这 个 术语 来 表示 2 字 节 ， 
而 使 用 太 字 节 (terabyte， 
TB) 表示 102 字 节 。 图 1-1 
展现 了 十 进 制 和 二 进 制 数值 
和 名 称 的 全 部 范围 。 


嵌入 式 计算 机 : 用 于 运行 
某 预 定 应 用 程序 或 软件 集 
合 的 计算 机 ， 一 般 内 谈 于 
其 他 设备 中 。 


矿 舍 帮 堆 雍 及 相关 共 大 3 





用 计算 机 。 


千 比 字 节 


兆 比 字 节 


[Ash | 
滑 比 字 节 





图 1-1 通过 为 所 有 常见 规格 术语 添加 二 进 制 记 法 解决 了 2" 与 19 字 节 的 不 明确 性 。 在 最 后 
一 列 中 ,我 们 标记 了 二 进 制 术 语 比 相应 的 十 进 制 术语 大 出 多 少 的 具体 比例 ， 可 以 看 
到 该 数值 从 上 往 下 逐渐 增 大 。 这 些 前 缀 可 以 用 于 位 和 字 节 ， 所 以 吉 位 (Gb) 为 10” 
位 ， es 
从 入 式 应 用 常常 具有 特定 的 应 要 求 ， 这 需要 将 最 低 性 能 与 严格 的 成 本 及 功 耗 限 
制 结合 在 一 起 考虑 。 hai 0 4 需要 尽快 执行 有 限 的 功能 ， 除 此 之 外 , 成 
本 和 功 耗 最 小 化 是 最 重要 的 目标 。 尽 管 成 本 很 低 ， 但 是 谍 人 式 计算 机 通常 对 故障 的 容忍 度 较 
低 ， 因 为 故障 可 能 会 令 人 不 安 (例如 ,新 买 的 电视 无 法 正常 工作 )， 其 至 是 破坏 性 的 (例如 ， 
飞机 或 货船 上 的 计算 机 系统 崩溃 )。 在 面向 消费 者 的 诅 入 式 应 用 (如 数字 家 电 ) 中 ， 一般 通过 
简单 设计 来 获得 可 靠 性 一 一 其 重点 在 于 尽 可 能 地 保证 一 项 功能 的 正常 运转 。 而 在 大 型 蔡 人 式 
系统 中 ， 采 用 了 服务 器 领域 的 宛 余 技术 。 尽 管 本 书 的 重点 是 通用 计算 机 ， 但 大 多 数 概念 直接 
或 稍 作 修改 即 可 适用 于 嵌入 式 计 算 机 。 
| 详细 阐述 “详细 阁 述 ”是 正文 中 的 一 些 简短 段落 ,提供 读 者 可 能 感 兴趣 的 特定 主题 的 更 
多 详细 信息 。 因 为 后 续 材料 并 不 依赖 于 详细 阐述 内 容 ， 所 以 对 此 不 感 兴趣 的 读者 可 以 直接 跳 过 。 
许多 典 入 式 处 理 器 都 是 使 用 处 理 器 核 进 行 设 计 ， 处 理 器 核 是 使 用 Verilog 或 VHDL ( 参 
见 第 4 章 ) 等 硬件 描述 语言 编写 的 处 理 器 版 本 。 它 使 得 设计 人 员 可 将 其 他 专用 硬件 与 处 理 器 
核 集成 在 一 块 单 芯片 上 进行 制造 。 


1.1.2 欢迎 来 到 后 PC 时 代 


技术 的 持续 进步 给 计算 机 硬件 带 来 了 革命 性 的 代 际 变迁 ， 也 改变 了 整个 信息 技术 产业 。 
从 本 书 的 上 一 版 以 来 ,我 们 经 历 了 这 种 变化 ， 这 种 变化 就 好 像 30 年 前 个 人 电脑 所 带 来 的 影 
响 一 样 重 大 。 蔡 代 个 人 电脑 的 是 个 人 移动 设备 ( Personal Mobile Device，PMD )。 个 人 移动 
设备 利用 电池 供电 ， 通 过 无 线 方式 连接 到 互联 网 ， 价 格 通常 只 有 几 
百 美元 。 此 外 ， 和 个 人 电脑 一 样 ， 用 户 可 以 下 载 软件 (“应 用 程序 ”) | 个 人 移动 设备 : 连接 到 
在 其 上 运行 。 与 个 人 电脑 不 同 的 是 ， 个 人 移动 设备 不 再 拥有 键盘 和 ep 
鼠标 ， 更 可 能 依靠 触摸 屏 或 语音 作为 输入 。 当 前 的 个 人 移动 设备 是 “| 下 载 App 的 方式 来 安 装 软 
智能 手机 或 平板 电脑 ， 但 未 来 的 个 人 移动 设备 可 能 包括 电子 眼镜 。 | 件 。 常 见 的 例子 有 智能 手 
图 1-2 给 出 了 平板 电脑 及 智能 手机 与 个 人 计算 机 及 传统 手机 之 数量 | 机 和 平板 电脑 。 
随时 间 快 速 增长 情况 的 对 比 。 












智能 手机 


电话 ( 不 包括 智能 手机 ) 


一 ”个 人 计算 机 ( 不 包括 平板 电脑 ) 


平板 电脑 





和 
2007 2008 2009 2010 2011 2012 


图 1-2 代表 着 后 PC 时 代 的 平板 电脑 及 智能 手机 每 年 的 产量 与 个 人 计算 机 及 传统 手机 的 对 
比 。 智 能 手机 反映 了 手机 行业 近期 的 增长 情况 ， 并 于 2011 年 超过 了 个 人 计算 机 产 
量 。 平板 电脑 是 增长 最 快 的 计算 机 类 别 ， 在 2011 年 至 2012 年 间 几 乎 成 倍增 长 。 个 


人 计算 机 和 传统 电话 的 产量 保持 不 变 甚 至 下 降 


云 计 算 接 蔡 了 传统 服务 器 ， 它 依赖 于 现在 称 为 仓储 级 计算 机 
(Warehouse Scale Computer，WSC) 的 巨型 数据 中 心 。 像 亚马逊 和 
谷歌 这 样 的 公司 构建 了 包含 100 000 台 服 务 器 的 仓储 级 计算 机 ， 一 
些 公 司 租用 其 中 的 一 部 分 为 个 人 移动 设备 提供 软件 服务 而 无 须 建 立 
自己 的 仓储 级 计算 机 。 事 实 上 ， 正 如 个 人 移动 设备 和 仓储 级 计算 机 
正在 改变 硬件 行业 一 样 ， 通 过 云 计 算 实 现 的 软件 即 服务 ( SaaS ) 正 
在 彻底 改变 软件 行业 。 当 今 的 软件 开发 人 员 经 常会 将 应 用 的 一 部 分 
运行 在 个 人 移动 设备 上 ， 男 一 部 分 则 部 署 在 云 上 。 


1.1.3 你 能 从 本 书 中 学 到 什么 


成 功 的 程序 员 总 是 关注 程序 的 性 能 ， 因 为 让 用 户 快 速 获得 结果 
对 于 软件 的 成 功 而 言 至 关 重 要 。20 世纪 六 七 十 年 代 ， 限 制 计算 机 性 
能 的 主要 因素 是 计算 机 的 内 存 容量 。 因 此 ， 当 时 的 程序 员 经 常 遵循 
一 个 简单 的 信条 : 尽量 减少 程序 占用 的 内 存 空 间 以 加 速 程序 运行 。 
近 十 年 以 来 ， 计 算 机 设计 和 存储 器 技术 有 了 显著 进步 ， 除 了 拒 和 式 


云 计 算 : 通过 互联 网 提供 
服务 的 大 规模 服务 器 集 
群 ， 一 些 服务 提供 商 动态 
地 将 不 同 数 量 的 服务 器 作 
为 像 水 、 电 一 样 的 公用 资 
源 进行 租用 。 


软件 即 服 务 : 通过 互联 网 
以 服务 的 方式 提供 软件 和 
数据 ， 通 常 是 通过 一 个 小 
型 客户 端 程序 (例如 运行 
在 本 地 客户 端 设备 上 的 浏 
览 器 ) 连接 网 络 以 运行 程 
序 或 获取 数据 ， 而 不 是 必 
须 完 全 在 本 地 设备 上 安装 
和 运行 所 有 二 进 制 代码 。 
具体 的 例子 包括 Web 搜索 
和 社交 网 络 。 


计算 系统 以 外 ， 大 多 数 应 用 系统 中 内 存 容量 对 计算 机 性 能 的 影响 已 大 大 降低 了 。 
现在 ， 关 心性 能 的 程序 员 应 该 非常 明确 ，20 世纪 60 年 代 的 简单 存储 模型 已 经 不 复 存 


在 ， 现 代 计 算 机 的 特征 是 处 理 器 的 并 行 性 和 存储 的 层次 性 。 我 们 将 在 第 3 章 至 第 6 章 中 展示 
如 何 将 C 程序 的 性 能 提高 200 倍 ， 从 而 阐释 这 一 理解 的 重要 性 。 此 外 ， 正 如 我 们 在 1.7 节 中 
所 阐述 的 ， 当 今 的 程序 员 需 要 考虑 在 个 人 移动 设备 或 云 上 程序 运行 的 能 效 ， 这 就 要 求 他 们 了 
解 代码 之 下 的 诸多 细节 。 因 此 ， 程 序 员 为 了 创造 有 竞争 力 的 软件 ， 必 须 加 强 对 计算 机 组 成 的 
认 知 。 

我 们 很 荣幸 有 机 会 解释 这 个 革命 性 的 计算 机 器 中 的 内 容 ， 并 阐明 程序 之 下 的 软件 以 及 机 
箱 覆 盖 下 的 硬件 是 如 何 工 作 的 。 在 你 读 完 这 本 书 的 时 候 ， 我 们 相信 你 能 够 回答 以 下 问题 : 

e 用 C 或 Java 等 高 级 语言 编写 的 程序 如 何 被 翻译 成 机 器 语言 ， 以 及 硬件 如 何 执行 最 终 
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的 程序 ?这 些 概念 是 理解 软 硬 件 如 何 影响 程序 性 能 的 基础 。 
软件 和 硬件 之 间 的 接口 是 什么 ?软件 如 何 指导 硬件 执行 所 需 的 功能 ?这 些 概念 对 于 理 
解 如 何 编写 软件 是 至 关 重要 的 。 
什么 因素 决定 了 程序 的 性 能 ， 以 及 程序 员 如 何 改 进程 序 性 能 ?我们 将 从 本 书 知道 ， 这 
取决 于 原始 程序 、 将 该 程序 转换 成 计算 机 语言 的 软件 以 及 硬件 执行 该 程序 的 有 效 性 。 
硬件 设计 人 员 可 以 使 用 哪些 技术 来 提高 性 能 ? 本 书 将 介绍 现代 计算 机 设计 的 基本 概 
念 。 感 兴趣 的 读者 可 以 在 我 们 的 进 阶 教材 《计算 机 体系 结构 : 量化 研究 方法 》 中 找到 
更 多 关于 此 主题 的 内 容 。 
硬件 设计 人 员 可 以 使 用 哪些 技术 来 改善 能 效 ? 程序 员 可 以 做 些 什 么 来 改变 能 效 ? 
串 行 处 理 近来 发 展 到 并 行 处 理 的 原因 和 结果 是 什么 ”本 书 给 
出 了 这 一 发 展 变 化 的 动机 ， 描 述 了 当前 支持 并 行 的 硬件 机 | 多 核 微 处 理 器 : 在 单个 集 
制 ， 并 评述 了 新 一 代 “ 多 核 ” 微 处 理 器 ( 见 第 6 章 )。 成 电路 中 包含 多 个 处 理 器 
自 1951 年 第 一 台 商 用 计算 机 以 来 ， 计 算 机 架构 师 提出 的 哪 1( 核 ) 的 微 处 理 器 。 
些 伟大 思想 奠定 了 现代 计算 技术 的 基础 ? 
如 果 不 了 解 这 些 问题 的 答案 ,那么 要 在 现代 计算 机 上 改进 程序 性 能 ， 或 者 要 评估 不 同 计 
算 机 解决 特定 问题 的 优 劣 ， 都 将 是 一 个 复杂 的 反复 试验 过 程 而 非 一 个 深入 分 析 的 科学 过 程 。 
第 1 章 为 本 书 的 其 余 章节 黄 定 基础 。 它 介绍 了 基本 概念 和 定义 ， 对 软件 和 硬件 的 主要 
组 成 部 分 进行 了 剖析 ， 展 示 了 如 何 评估 性 能 和 功 耗 ， 介 绍 了 集成 电路 (推动 计算 机 革命 的 技 
术 )， 并 在 最 后 解释 了 技术 向 多 核 转 变 的 原因 。 
在 本 章 及 后 面 的 章节 中 ， 读 者 可 能 会 看 到 很 多 新 的 术语 ， 或 者 可 能 听 到 过 但 不 确定 确切 
含义 的 术语 。 请 不 要 惊慌 或 担心 ! 在 描述 现代 计算 机 时 ， 确 实 会 使 
用 许多 专用 术语 来 作为 帮助 ， 它 使 我 们 能 够 精确 地 描述 计算 机 的 功 “| 站 字 忆 缩 略 记 ， 通过 提取 


SE 一 囊 单词 的 首 字母 构成 的 
能 或 性 能 。 此 外 ,计算 机 设计 师 (包括 本 书 作 者 ) 喜欢 使 用 首 字 母 | 单词 例如: RAM 是 随 
缩 略 词 ， 一 旦 知道 这 些 字 母 代表 的 是 什么 ， 就 很 容易 理解 了 。 为 了 | 机 存 取 存储 单元 (Random 


ei bpd 在 术语 第 一 次 出 现 的 时 候 ， 本 书 将 pa ee 
给 出 明确 定义 。 经 过 与 术语 的 短 时 间接 触 ， 你 将 会 熟练 掌握 它们 ， | 名单 元 ( Central processing 
而 且 你 的 朋友 也 将 对 你 正确 使 用 BIOS、CPU、DIMM、DRAM、 | Unit) 的 首 字 母 缩 略 词 。 
PCIe、SATA 等 许多 缩 略 词 印象 深刻 。 

为 了 加 强 对 程序 运行 时 如 何 应 用 软件 和 硬件 以 影响 性 能 的 理解 ， 我 们 安排 了 贯穿 整 书 的 
专门 模块 “理解 程序 性 能 "， 概 括 对 程序 性 能 的 重要 理解 。 下 面 就 是 第 一 个 。 

[型 解 御 序 性 能 | 程序 的 性 能 取决 于 以 下 各 因素 的 组 合 : 程序 中 所 用 算法 的 有 效 性 ， 用 来 
创建 程序 和 将 其 翻译 为 机 器 指令 的 软件 系统 ， 计 算 机 执行 这 些 机 器 指令 (可 能 包括 输入 / 输 
出 操作 ) 时 的 有 效 性 。 下 表 总 结 了 软件 和 硬件 是 如 何 影响 程序 性 能 的 。 


es 该 部 分 如 何 影响 性 能 该 主题 出 现 的 位 置 


决定 了 源码 级 语句 的 数量 和 执行 |/O 操 作 的 数量 其 他 书籍 


编程 语言 、 编 译 器 和 体系 结构 | 决定 了 每 条 源码 级 语句 对 应 的 计算 机 指令 数量 
处 理 器 和 存储 系统 决定 了 指令 执行 速度 


IO 系统 ( 硬件 和 操作 系统 ) | 决定 了 I/O 操 作 可 能 的 执行 速度 第 4、5、6 章 








如 上 所 述 ， 为 了 说 明 本 书 中 思想 的 作用 ， 我 们 在 一 系列 章节 中 对 一 个 完成 矩阵 和 向 量 相 
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乘 的 C 程序 的 性 能 进行 优化 。 每 个 步骤 都 可 以 帮助 我 们 理解 现代 微 处 理 器 中 的 底层 硬件 是 如 
何 将 性 能 提高 200 倍 的 ! 
e 在 第 3 章 的 数据 级 并 行 部 分 中 ， 我们 使 用 C 语言 固有 的 子 字 并 行将 性 能 提高 了 
3.8 倍 。 
e 在 第 4 章 的 指令 级 并 行 部 分 中 ， 我 们 使 用 循环 展开 来 开发 多 指令 发 射 和 乱 序 执行 硬 
件 ， 将 性 能 再 提高 2.3 倍 。 
e 在 第 5 章 的 存储 层次 优化 部 分 中 ,我 们 使 用 高 速 缓存 分 块 技术 将 大 型 矩阵 性 能 再 次 提 
高 2 到 2.5 倍 。 
。 在 第 6 章 的 线程 级 并 行 部 分 ， 我们 在 OpenMP 中 使 用 循环 并 行 来 开发 多 核 硬 件 ， 将 
性 能 再 次 提高 4 到 14 倍 。 





1.2 计算 机 体系 结构 中 的 8 个 伟大 思想 


现在 我 们 来 介绍 计算 机 架构 师 在 过 去 60 年 中 提出 的 8 个 伟大 思想 。 这 些 思想 非常 强 
大 ， 以 至 于 在 应 用 这 些 思想 产生 首 台 计算 机 之 后 的 很 长 时 间 里 ， 新 一 代 的 架构 师 仍然 在 设计 
中 通过 模仿 向 先驱 致敬 。 这 些 伟 大 的 思想 将 贯穿 在 本 章 和 后 续 章节 的 主题 中 ， 明 确 使 用 了 近 
100 次 。 


1.2.1 面向 摩尔 定律 的 设计 


计算 机 设计 者 面临 的 一 个 永恒 的 问题 就 是 功 莹 定律 ( Moore's law) 驱动 的 快速 变化 。 麻 
尔 定律 指出 单 芯片 上 所 集成 的 晶体 管 资源 每 18 至 24 个 月 翻 一 番 。 摩 尔 定律 是 Intel 公司 的 
创始 人 之 一 戈 登 .摩尔 在 1965 年 对 集成 电路 容量 做 出 的 预测 。 由 于 计算 机 设计 需要 人 花费 数 
年 时 间 ， 因 此 在 项 目 结束 时 ， 每 个 芯片 的 可 用 晶体 管 资源 相对 设计 开始 时 可 以 轻易 实现 双 倍 
或 四 倍增 长 。 像 双向 飞碟 运动 员 一 样 ， 计 算 机 架构 师 必 须 预测 其 设计 完成 时 的 工艺 水 平 ， 而 
不 是 设计 开始 时 的 工艺 水 平 。 
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1.2.2 ”使 用 抽象 简化 设计 


计算 机 架构 师 和 程序 员 都 必须 发 明 新 技术 来 提高 自己 的 工作 效率 ,否则 根据 摩尔 定律 ， 
设计 时 间 也 会 随 着 资源 的 增长 而 显著 延长 。 提 高 硬件 和 软件 生产 率 的 主要 技术 之 一 是 使 用 山 
萌 (abstraction ) 来 表示 不 同 的 设计 层次 隐藏 低层 细节 以 提供 给 高 层 一 个 更 简单 的 模型 。 


1.2.3 加速 经 常 性 事件 


区 还 性 事件 ( make the common case fast) 远 比 优化 罕见 情形 能 够 更 好 地 提升 性 能 。 
具有 讽刺 意味 的 是 ， 经 常 性 事件 往往 比 罕见 情形 更 简单 ， 因 此 通常 更 容易 提升 。 这 个 常识 性 
建议 意味 着 设计 者 需要 知道 经 常 性 事件 是 什么 ， 这 只 有 通过 仔细 的 实验 和 测量 才 可 能 得 出 
( 见 1.6 节 )。 


1.2.4 通过 并 行 提高 性 能 


自 计 算 诞生 以 来 ， 计 算 机 架构 师 就 通过 并 行 计算 操作 来 获得 更 高 性 能 。 在 本 书 中 我 们 将 
会 看 到 很 多 跟 行 的 例子 。 


1.2.5 ”通过 流水 线 提高 性 能 


并 行 性 的 一 种 特殊 场景 在 计算 机 体系 结构 中 非常 普遍 ， 因 此 它 有 着 专 有 名 称 : 趾 求 线 
( pipelining)。 例 如 在 许多 西部 片 中 有 坏人 纵火 ， 而 在 消防 车 出 现 之 前 可 能 会 有 一 个 “消防 队 
列 ” 来 灭火 一 一 小 镇 居民 们 排 成 一 个 长 链 来 运 水 灭火 ， 这 可 以 使 水 桶 在 链 上 快速 移动 而 无 须 
人 员 往 返 奔跑 。 


1.2.6 ”通过 预测 提高 性 能 


遵照 谚语 “请 求 宽恕 胜 于 寻求 许可 ”， 下 一 个 伟大 思想 就 是 锋 测 。 在 某 些 情况 下 ， 假 设 
从 预测 错误 中 恢复 的 代价 并 不 高 ， 且 预测 相对 准确 ， 则 平均 来 说 进行 预测 并 开始 工作 可 能 会 
比 等 到 明确 结果 后 再 执行 更 快 。 


1.2.7 存储 层次 


由 于 存储 器 的 速度 通常 会 影响 性 能 ， 存 储 器 的 容量 限制 了 可 被 解决 的 问题 的 规模 ， 且 当 
今 的 内 存 成 本 常常 是 计算 机 成 本 的 主要 部 分 ， 因 此 程序 员 和 希望 存储 器 速度 更 快 、 容 量 更 大 、 
价格 更 便宜 。 架 构 师 发 现 可 以 通过 崩 哮 层次 ( hierarchy of memory) 来 处 理 这 些 冲突 的 需求 。 
在 存储 层次 中 ， 速 度 最 快 、 容 量 最 小 并 且 每 位 价格 最 昂贵 的 存储 器 处 于 顶层 ， 而 速度 最 慢 、 
容量 最 大 且 每 位 价格 最 便宜 的 存储 器 处 于 底层 。 正 如 我 们 将 在 第 5 章 中 看 到 的 那样 ， 高 速 组 
存 给 了 程序 员 这 样 的 错觉 : 主 存 与 存储 层次 顶层 几乎 一 样 快 ， 且 与 存储 层次 底层 拥有 几乎 一 
样 大 的 容量 和 便宜 的 价格 。 


1.2.8 通过 元 余 提 高 可 靠 性 


计算 机 不 仅 要 速度 快 ， 更 需要 工作 可 靠 。 由 于 任何 物理 设备 都 可 能 发 生 故 障 ， 因 此 我 们 
通过 引入 宛 余 组 件 来 使 系统 贺 靠 ， 该 组 件 在 系统 发 生 故 障 时 可 以 奉 代 失效 组 件 并 帮助 检测 
故障 。 
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1.3 程序 表象 之 下 


一 个 典型 的 应 用 程序 ， 如 字 人 处理 程 序 或 大 型 数据 库 系统 ， 可 以 在 巴黎 ， 我 对 当地 人 讲法 
由 数 百 万 行 代码 构成 ， 并 依靠 软件 库 来 实现 异常 复杂 的 功能 。 众 所 ”| 语 ， 他 们 只 是 瞪 着 眼看 着 
周知 ， 计 算 机 中 的 硬件 只 能 执行 极为 简单 的 低级 指令 。 从 复杂 的 应 。 | 我 ; 我 从 未 没 能 让 这 些 白 


用 程序 到 原始 的 指令 涉及 若干 软件 层次 来 将 高 层次 操作 解释 或 翻译 | = 半生 


成 简单 的 计算 机 指令 ,这 可 以 作为 伟大 的 乌 象 思想 的 一 个 例子 。 大 国政 过 ，/809 
图 1-3 给 出 了 这 些 软 件 的 层次 结构 ， 外 层 是 应 用 软件 ， 中 心 是 
本 、 系统 软件 : 提供 常用 服务 
硬件 ， 系 统 软 件 (systems software) 位 于 两 者 之 间 。 ep pd 
编译 器 、 加 载 程序 和 汇 纺 


应 用 软 你 器 等 





ET 


图 1-3 简化 的 硬件 和 软件 层次 图 ， 将 硬件 作为 同心 圆 的 中 心 ， 应 用 软件 作为 最 外 层 。 在 复 
杂 的 应 用 中 通常 存在 多 层 应 用 软件 层 。 例 如 ， 一 个 数据 库 系统 可 运行 于 系统 软件 之 
上 ， 而 驻 留 在 该 系统 软件 上 的 某 应 用 又 反 过 来 运行 在 该 数据 库 之 上 


系统 软件 有 很 多 种 ， 其 中 有 两 种 对 于 现代 计算 机 系统 来 说 是 必需 的 : 操作 系统 和 编译 器 。 
操作 系统 (operating system) 是 用 户 程序 和 硬件 之 间 的 接口 ， 为 用 户 


提供 各 种 服务 和 监控 功能 。 操 作 系 统 最 为 重要 的 作用 是 : 操作 系统 ， 为 了 使 程序 
。 处 理 基本 的 输入 和 输出 操作 。 ne 
。 分 配 外 存 和 内 存 。 ts ee 


e 为 多 个 应 用 程序 提供 共享 计算 机 资源 的 服务 。 

当前 我 们 使 用 的 操作 系统 主要 有 Linux、iOS 和 Windows。 

编译 器 (compiler) 完成 另外 一 项 重要 功能 : 把 高 级 语言 (如 C、 | 编译 器 : 将 高 级 语言 翻译 
C++、jJava 或 Visual Basic 等 ) 编写 的 程序 翻译 成 硬件 能 执行 的 指令 。 | 为 计算 机 所 能 识别 的 机 器 
这 个 翻译 过 程 是 相当 复杂 的 ， 这 里 仅 作 简 要 介绍 ， 第 2 章 将 作 深入 | 等 计 的 和 月 。 
介绍 。 


从 高 级 语言 到 硬件 语言 


谈 到 电子 硬件 ， 首 先 需 要 谈 到 电信 号 的 发 送 。 对 于 计算 机 来 说 ， 最 简单 的 信号 是 通 和 
断 。 因 此 ,计算机 只 用 2 个 字母 来 表示 。 正 如 英语 26 个 字母 写 多 少 ye 
不 受 限 制 一 样 ， 计 算 机 的 2 个 字母 写 多 少 也 不 受 限 制 。 代 表 2 个 字 | 闭 为 ?的 数字 中 en 
母 的 符号 是 0 和 1， 我 们 通常 认为 计算 机 语言 就 是 二 进 制 数 。 每 个 | 1， 它 是 信息 的 基本 组 成 
字母 就 是 二 进 制 数 字 中 的 一 个 二 进 制 位 (binary digit) 或 一 位 (bit)。 | 元 素 。 
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计算 机 服从 于 我 们 的 命令 ， 即 计算 机 术语 中 的 指令 〈instruction )。 指 令 是 能 被 计算 机 识别 并 
执行 的 位 串 ， 可 以 将 其 视 为 数字 。 例 如 ， 位 串 

1001010100101110 
告诉 计算 机 将 两 个 数 相 加 。 第 2 章 将 解释 为 什么 数字 既 表 示 指 令 又 
表示 数据 。 我 们 不 希望 在 此 处 涉及 第 2 章 的 具体 内 容 ， 但 是 使 用 数 ee 计算 机 硬件 能 够 理 
字 既 表示 指令 又 表示 数据 是 计算 机 的 基础 。 解 并 遵从 的 命令 。 

第 一 代 程 序 员 是 直接 使 用 二 进 制 数 与 计算 机 通信 的 ， 这 是 一 
项 非常 乏味 的 工作 。 所 以 他 们 很 快 发 明了 助 记 符 ， 以 符合 人 类 的 思 
维 方式 。 最 初 助 记 符 是 手工 翻译 成 二 进 制 的 ， 其 过 程 显然 过 于 烦 
珊 。 随 后 设计 人 员 开 发 了 一 种 称 为 汇编 器 (assembler) 的 软件 ， 可 


汇编 器 : 将 指令 由 助 记 符 
形式 翻译 成 二 进 制 形式 的 





以 将 助 记 符 形式 的 指令 自动 翻译 成 对 应 的 二 进 制 。 例 如 ， 程 序 员 | 程序 。 
对 下 

add A,B 
汇编 程序 会 将 该 符号 翻译 成 

1001010100101110 


该 指令 告诉 计算 机 将 A 和 B 两 个 数 相 加 。 这 种 符号 语言 的 名 称 今天 “| 汇编 语言 以 助 记 符 形式 
还 在 用 ， 即 汇编 语言 (assembly language)。 而 机 器 可 以 理解 的 二 进 | 表示 的 机 器 指令 。 
制 语言 是 机 器 语言 (machine language)。 

虽然 这 是 一 个 巨大 的 进步 ， 但 汇编 语言 仍然 与 科学 家 用 来 模拟 CR 
液体 流动 或 会 计 师 用 来 结算 账目 所 使 用 的 符号 相去 其 远 。 汇 编 语言 | 加。 半生 
需要 程序 员 写 出 计算 机 执行 的 每 条 指令 ， 要 求 程序 员 像 计算 机 一 样 ; 
思考 。 

认识 到 可 以 编写 一 个 程序 来 将 更 强大 的 高 级 语言 翻译 成 计算 机 “| 高 级 编程 语言 如 CCH 
指令 是 计算 机 早期 的 一 个 重大 突破 。 高 级 编程 语言 及 其 编译 器 大 大 | Java、Visual Basic 等 可 移 
地 提高 了 软件 的 生产 率 。 图 1-4 给 出 了 这 些 程序 和 编程 语言 之 间 的 。 | 杜 的 语言 ， 由 一 些 单 词 和 

代数 符号 组 成 ， 可 以 由 编 

关系 ， 这 是 生 莹 思想 之 伟大 的 另外 一 个 例子 。 rep de 

编译 器 使 得 程序 员 可 以 写 出 高 级 语言 表达 式 。 

态 二 器 
编译 器 将 其 编译 为 如 下 的 汇编 语言 语句 : 

add A, B 
然后 ， 汇 编 器 将 此 语句 翻译 为 二 进 制 指令 ， 告 诉 计算 机 将 两 个 数 和 A 和 B 相 加 。 

使 用 高 级 编程 语言 有 以 下 几 个 好 处 。 第 一 ， 可 以 使 程序 员 用 更 自然 的 语言 来 思考 ， 用 英 
文 和 代数 符号 来 表示 ， 形 成 的 程序 看 起 来 更 像 文 字 而 不 是 密码 表 ( 见 图 1-4 )。 而 且 , 它们 
可 按 用 途 进行 设计 。 例 如 ，Fortran 是 为 科学 计算 设计 的 ，Cobol 是 为 商业 数据 操作 设计 的 ， 
Lisp 是 为 符号 操作 设计 的 ， 等 等 。 还 有 一 些 特定 领域 的 语言 ， 只 为 少数 专业 人 群 设计 ， 如 流 
体 仿真 的 研究 人 员 等 。 

第 二 ， 高 级 语言 提高 了 程序 员 的 生产 率 。 如 果 使 用 较 少 行 数 的 编程 语言 即 可 表示 出 设计 
用 意 ， 则 可 加 速 程序 的 开发 ， 这 是 软件 开发 方面 少 有 的 共识 之 一 。 简 明 性 是 高 级 语言 相对 汇 
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编 语言 最 为 明显 的 优势 。 

第 三 ， 采 用 高 级 语言 编写 程序 提高 了 程序 相对 于 计算 机 的 独立 性 ， 因 为 编译 器 和 汇编 程 
序 能 够 把 高 级 语言 程序 翻译 成 任何 计算 机 的 二 进 制 指令 。 高 级 编程 语言 的 这 些 好 处 ， 使 其 直 
到 今天 仍 应 用 广泛 。 

高 级 语言 程序 swap(size t v[], size t k) 
( C 语 言 ) { 、 
size_t temp; 
temp = v[k]; 


VER = VL 
VERE1] = tembs; 


汇编 语言 程序 swap: , 
( RISC-V 指 令 系 统 ) sili wb 区 过 


i 


二 进 制 机 器 语言 程序 00000000001101011001001100010011 
( RISC-V 指 令 系 统 ) 00000000011001010000001100110011 
00000000000000110011001010000011 
00000000100000110011001110000011 
00000000011100110011000000100011 
00000000010100110011010000100011 
00000000000000001000000001100111 


图 1-4 “C 程序 编译 为 汇编 语言 程序 ， 再 汇编 为 二 进 制 机 器 语言 程序 。 尽 管 将 高 级 语言 翻译 
成 二 进 制 的 机 噩 语言 仅 需要 两 步 ， 但 一 些 编译 器 将 “中 间 人 ” 略 去 并 直接 产生 二 进 
制 的 机 器 语言 。 这 些 语言 和 本 图 中 列举 的 程序 将 在 第 2 章 详 细 介绍 


1.4 箱 盖 后 的 硬件 


我 们 已 经 在 上 节 通 过 程序 揭示 了 计算 机 软件 ， 在 本 节 中 我 们 将 打开 机 箱 盖 学 习 其 中 的 硬 
件 。 任 何 一 台 计 算 机 的 基础 硬件 都 要 完成 相同 的 基本 功能 : 输入 数据 、 输 出 数据 、 处 理 数据 
和 存储 数据 。 本 书 的 主题 就 是 描述 这 些 功 能 是 怎样 完成 的 ， 随 后 各 章 将 分 别 讨论 这 4 项 任务 。 

本 书 在 遇 到 重要 知识 点 时 ， 都 会 用 “重点 ”标题 加 以 强调 ， 和 希望 读者 对 其 重点 记忆 。 全 
书 大 致 有 10 多 个 重要 知识 点 ， 这 里 是 第 一 个 ， 即 计算 机 是 由 输入 、 输 出 、 处 理 和 存储 数据 
任务 的 5 个 部 件 构成 的 。 

计算 机 的 两 个 关键 部 件 是 输入 设备 ( input device) 和 输出 设备 ( output device)， 例 如 麦 


计 食 机 描 用 及 相关 黄 枯 LY 








Mere ee rea Ae gage ee ess 
输出 将 计算 结果 送 给 用 户 。 像 无 线 网 络 等 设备 既是 输入 设备 又 是 输 | 信息 的 装置 ， 如 键盘 。 
出 设备 。 

第 5 章 和 第 6 章 将 详细 介绍 IO 设备 ， 这 里 由 外 部 IO 设备 开 
始 先 对 计算 机 硬件 做 一 些 基本 的 介绍 。 

| 厂址; 组 成 计算 机 的 五 个 经 典 部 件 是 输入 、 输 出 、 存 储 器 、 数 
据 通路 (在 计算 机 中 也 称 运 算 器 ) 和 控制 器 ， 其 中 后 两 个 部 件 通常 合 称 为 处 理 器 。 图 1-5 展 
示 了 一 台 计 算 机 的 标准 组 成 部 分 。 该 组 成 与 硬件 技术 无 关 ， 你 总 能 够 把 任何 现在 或 过 去 的 计 
算 机 中 的 任何 组 件 归 于 这 五 类 组 件 之 一 。 为 了 加 深 读者 对 这 一 重点 的 印象 ， 我 们 将 在 每 章 开 
始 都 给 出 此 图 ， 并 突出 显示 该 章 关 注 的 部 分 。 


输出 设备 : 将 计算 结果 输 
出 给 用 户 (如 显示 器 ) 或 
其 他 计算 机 的 装置 。 





接口 


| 天 ~ 





存储 器 


图 1-5 组 成 计算 机 的 五 个 经 典 部 件 。 处 理 器 从 存储 器 中 得 到 指令 和 数据 ， 输 入 部 件 将 数据 
写 和 存储器， 输出 部 件 从 存储 器 中 读 出 数据 ， 控 制 器 向 数据 通路 、 存 储 器 、 输 入 和 
输出 部 件 发 出 命令 信号 

通过 计算 机 显示 器 ， 我 将 
1.4.1 显示 器 飞机 降落 在 航空 母 舰 的 甲 
过 板 上 ， 观 察 到 一 个 原子 打 
最 吸引 人 的 1O 设备 应 该 是 图 形 显示 器 了 。 大 多 数 个 人 移动 设 | 到 荔 春 中 ， 科 着 火箭 以 接 
备 都 用 液晶 显示 (Liquid Crystal Display，LCD ) 来 获得 轻巧 、 低 功 “| 近 光 的 速度 飞翔 ， 同 时 我 
耗 的 显示 效果 。LCD 并 非 光源 ， 而 是 控制 光 的 传输 。 典 型 的 LCD a 
内 含 棒状 液态 分 子 团 形成 的 转动 螺旋 线 ， 用 来 弯曲 来 自 显示 器 后 方 | sw jr 四 并 
的 光线 或 者 少量 的 反射 光线 。 当 电流 通过 时 ， 液 态 分 子 棒 不 再 弯曲 ， | 学 之 父 ， 姑 学 类 国人 ，1984 
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也 不 再 使 光线 弯曲 。 由 于 两 层 相互 垂直 的 偏光 板 之 间 充 满 液晶 材料 ， | 液晶 显示 : 一 种 显示 技术 ， 
如 果 它 不 弯曲 则 光线 不 能 通过 。( 在 不 施加 任何 电压 的 情况 下 ， 液 晶 。 | 用 液体 聚合 物 薄 层 的 带电 
处 于 初始 状态 ， 并 将 入射 光 的 方向 扭转 99。， 让 背光 源 的 入 射 光 能 0 
通过 整个 结构 ， 在 显示 屏 上 呈现 白色 ; 而 当 施 加 电压 时 ， 光 线 不 再 

弯曲 ， 显 示 屏 呈现 黑色 。) 今天 ， 大 多 数 LCD 显示 器 采用 动态 和 矩阵 
(active matrix) 显示 技术 ， 其 每 个 像素 都 由 一 个 晶体 管 精确 地 控制 电 
流 ， 使 图 像 更 清晰 。 在 彩色 动态 矩阵 LCD 中 ,还 有 一 个 红 - 绿 - 蓝 
屏 决定 三 种 颜色 分 量 的 强度 ， 每 个 点 需要 三 个 晶体 管 开 关 。 

图 像 由 像素 矩阵 组 成 ， 可 以 表示 成 二 进 制 位 的 矩阵 ， 称 为 位 图 
(bit map)。 针 对 不 同 的 屏幕 尺寸 及 分 辨 率 ， 典 型 的 屏幕 中 显示 和 矩阵 
的 大 小 可 以 从 1024 x 768 到 2048 x 1536。 彩 色 显 示 器 使 用 8 位 来 表 
示 每 个 三 原色 ( 红 、 绿 和 蓝 )， 每 个 像素 用 24 位 表示 ， 可 以 显示 百 万 
种 不 同 的 颜色 。 

计算 机 硬件 采用 光栅 刷新 缓冲 区 (又 称 为 帧 缓冲 区 ) 来 保存 位 图 以 支持 图 像 。 要 显示 的 
图 像 保 存在 帧 缓冲 区 中 ， 每 个 像素 的 二 进 制 值 以 刷新 频率 读 出 到 显示 设备 。 图 1-6 显示 了 用 
4 位 表示 一 个 像素 的 简化 设计 的 帧 缓冲 区 。 


动态 矩阵 显示 : 一 种 液晶 
显示 技术 ,使 用 晶体 管控 
制 单个 像素 上 光线 的 传输 。 





像素 : 图 像 元 素 的 最 小 单 
元 。 屏 幕 由 数 百 万 到 数 
千 万 像素 组 成 的 矩阵 构成 。 





光栅 扫描 CRT 显 示 器 


yo 


A 





和 站 Xo Xi 
图 1-6 左边 帧 缓冲 区 中 的 每 个 坐标 决定 了 右边 光栅 扫描 CRT 显示 器 中 相应 坐标 的 灰 度 。 像 


素 (有 加， ) 的 灰 度 值 是 0011， 小 于 像素 (名 ， 了 六 ) 的 灰 度 值 ，( 名， ) 的 灰 度 值 
是 1101 


使 用 位 图 的 目的 是 如 实地 在 屏幕 上 进行 显示 。 因 为 人 眼 可 以 分 辨 出 屏幕 上 的 细小 变化 ， 
所 以 图 形 系统 仍 面临 着 挑战 。 


1.4.2 触摸屏 


PC 使 用 LCD 来 进行 显示 ， 而 后 PC 时 代 的 平板 电脑 和 智能 手机 使 用 接触 敏感 的 显示 设 
备 替 代 了 键盘 和 鼠标 。 这 使 其 拥有 良好 的 用 户 界 面 ， 用 户 直接 指向 感 兴趣 的 内 容 ， 而 不 需要 
使 用 鼠标 。 

触摸 屏 可 采用 多 种 方式 实现 ， 许 多 平板 电脑 采用 电容 感应 实现 。 如 果 绝 缘 玻 璃 上 和 覆盖 一 
层 透 明 的 导体 ， 人 的 手指 接触 到 屏幕 范围 时 ， 由 于 人 是 导体 ， 将 会 使 屏幕 的 电场 发 生变 化 ， 
进而 导致 电容 的 变化 。 这 种 技术 允许 同时 接触 多 个 点 ， 可 提供 非常 好 的 用 户 界面 。 
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1.4.3 ”打开 机 箱 


图 1-7 给 出 了 Apple iPad 2 平板 电脑 的 内 部 结构 。 不 难看 出 ， 计 算 机 五 大 传统 部 件 中 的 
IO 是 该 设备 的 主要 部 分 。iPad 2 的 IO 设备 包括 一 个 电容 性 的 多 触 点 LCD 、 前 置 摄像 头 、 
后 置 摄像 头 、 麦 克 风 、 耳 机 插 孔 、 扬 声 器 、 加 速 计 、 陀 螺 仪 、Wi-Fi 网 络 和 蓝牙 网 络 。 其 数 


据 通路 、 控 制 咒 和 存储 器 只 占 很 小 一 部 分 。 


2 





图 1-7 Apple iPad 2 A1395 的 组 成 。 中 间 是 iPad 的 金属 背 板 (中心 是 倒置 的 Apple 标志 )， 
顶部 是 电容 性 触摸 屏 和 LCD。 最 右 端 是 3.8V、25W* h 的 聚合 物 电 池 ， 它 包含 三 块 
锂 离子 电池 芯 ， 可 以 供电 10 小 时 。 最 左 端 是 将 LCD 固定 在 背 板 上 的 金属 外 壳 。 金 
属 背 板 周 围 的 小 部 件 组 成 了 我 们 熟知 的 计算 机 ， 它 们 在 金属 过 内 位 于 电池 旁边 ， 呈 
L 形 排 布 。 图 1-8 显示 了 靠近 金属 外 壳 左 下 部 工 形 的 逻辑 主板 的 详细 情况 ， 上 面 有 
处 理 器 和 存储 器 ， 其 下 面 的 小 方块 中 包含 了 提供 无 线 通信 的 芯片 ， 即 Wi-Fi、 蓝 牙 
和 调频 调谐 器 ， 它 可 以 插 在 逻辑 主板 左下 角 的 插 模 中。 外壳 左上 角 是 男 外 一 个 工 形 
部 件 ， 它 是 前 置 摄像 组 件 ， 包 括 摄像 头 、 耳 机 插 孔 和 麦克 风 。 外 壳 右 上 和 角 的 电路 板 
除了 加 速 计 和 陀螺 仪 ， 还 包含 了 音量 控制 和 静音 /屏幕 旋转 锁定 按钮 。 加 速 计 和 陀 
螺 仪 使 得 iPad 可 识别 六 个 方向 的 移动 。 旁 边 的 小 方块 是 后 置 摄像 头 。 外 壳 右 下 角 是 
L 形 的 扬声器 组 件 。 底 部 的 电缆 连接 逻辑 主板 和 摄像 /声音 控制 电路 板 。 电 缆 和 扬 
声 器 组 件 之 间 的 电路 板 是 电容 性 触摸 屏 的 控制 器 (iFixit 友情 提供 ，www.ifixit.com) 


图 1-8 中 的 小 长 方形 是 集成 电路 ， 俗 称 芯片 。 其 中 心 标 有 A5 
的 芯片 中 含有 两 个 运行 频率 为 1GHz 的 ARM 处 理 器 。 处 理 器 是 计 
算 机 中 最 活跃 的 部 分 。 它 严格 按照 程序 中 的 指令 运行 ， 完 成 数据 相 
加 、 数 据 测 试 、 按 结果 发 出 控制 信号 使 IO 设备 做 出 动作 等 操作 。 
有 时 候 ， 人 们 把 处 理 器 称 为 中 央 处 理 单 元 ( central processor unit)， 
即 CPU。 

为 进一步 理解 硬件 ， 图 1-9 展示 了 一 款 微 处 理 器 的 内 部 细节 。 
处 理 器 从 逻辑 上 包括 两 个 主要 部 件 : 数据 通路 和 控制 器 ， 分 别 相 当 
于 处 理 器 的 身体 和 大 脑 。 数 据 通路 ( datapath) 负责 完成 算术 运算 ， 


集成 电路 : 也 叫 芯 片 ， 一 
种 集成 了 几 十 个 至 上 亿 个 
晶体 管 的 设备 。 


中 央 处 理 单 元 : 也 称 为 处 
理 器 ， 处 理 器 是 计算 机 中 
最 活跃 的 部 分 ， 它 包括 数 
据 通路 和 控制 器 ， 能 完成 
数据 相 加 、 数 据 测试 、 按 
结果 发 出 控制 信号 使 IO 
设备 做 出 动作 等 操作 。 
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控制 器 ( control) 负责 指导 数据 通路 、 存 储 器 和 IO 设备 按照 程序 的 
指令 正确 执行 。 第 4 章 将 进一步 详细 说 明 数 据 通路 和 控制 器 。 


数据 通路 ， 处理 器 中 执行 
算术 操作 的 部 分 





图 1-8 图 1-7 中 Apple iPad 2 的 逻辑 主板 。 图 中 突出 了 五 块 集成 电路 。 中 部 的 大 集成 电路 
芯片 是 Apple A5 芯片 ， 包 含 了 一 个 主 频 1GHz 的 双核 ARM 处 理 器 和 512MB 的 主 
存 。 图 1-9 是 A5 中 处 理 器 芯片 的 照片 。 本 图 右边 大 小 相当 的 芯片 是 32GB 非 易 失 性 
的 闪存 芯片 。 两 块 芯片 之 间 的 空间 可 以 安装 第 二 块 存储 器 来 扩展 iPad 的 存储 容量 。 
A5 左边 的 芯片 包含 了 电源 控制 和 IO 控制 芯片 (iFixit 友情 提供 ，www.ifixit.com) 


图 1-8 中 的 As 芯片 中 还 有 两 块 存 储 器 芯片 ， 每 块 容量 为 2Gib， 
共 512MiB。 内 存 (memory) 是 程序 运行 时 的 存储 空间 ， 它 同时 
也 用 于 保存 程序 运行 时 所 使 用 的 数据 。 内 存 由 DRAM 芯片 组 成 。 
DRAM 是 Dynamic Random Access Memory (动态 随机 访问 存储 器 ) 
的 缩写 。 内 存 由 多 片 DRAM 芯片 组 成 ， 用 来 承载 程序 的 指令 和 数 
据 。 与 串 行 访问 内 存 (如 磁带 ) 不 同 的 是 ,无论 数据 存储 在 什么 位 
置 ，DRAM 访问 内 存 所 需 的 时 间 基 本 相同 

进一步 深入 了 解 任 何 一 个 硬件 部 件 会 加 深 对 计算 机 的 理解 。 
在 处 理 器 内 部 使 用 的 是 另外 一 种 存储 器 一 一 高 速 组 在。 高速 缓存 
(cache memory) 是 一 种 小 而 快 的 存储 器 ， 一 般 作 为 DRAM 的 缓冲 
(缓存 的 一 个 非 技术 性 定义 是 : 隐藏 事物 的 安全 地 方 )。 高 速 缓存 采 
用 的 是 另 一 种 存储 技术 ， 称 为 静态 随机 访问 存储 器 〈 Static Random 
Access Memory，SRAM)， 其 速度 更 快 而 且 不 那么 密集 ， 因 此 价格 
比 DRAM 更 贵 ( 见 第 5 章 )。SRAM 和 DRAM 是 团 酉 器 蛙 次 中 的 
两 个 层次 。 

如 前 所 述 ， 改 进 设计 的 一 个 伟大 思想 是 镭 象 。 最 重要 的 抽象 之 
一 是 硬件 和 底层 软件 之 间 的 接口 。 鉴 于 其 重要 性 ， 该 抽象 被 命名 为 
计算 机 指令 系统 体系 结构 (instruction set architecture)， 或 简称 体系 
结构 ( architecture)。 计 算 机 体系 结构 包含 了 程序 员 正 确 编写 二 进 制 
机 器 语言 程序 所 需 的 全 部 信息 ， 如 指令 、LO 设备 等 。 一 般 来 说 ， 操 
作 系 统 需要 封装 IO 操作 、 存 储 器 分 配 和 其 他 低级 的 系统 功能 细节 ， 
以 使 得 应 用 程序 员 无 须 关 注 这 些 细节 。 提 供给 应 用 程序 员 的 基本 指 
令 系 统 和 操作 系统 接口 合 称 为 应 用 二 进 制 接口 ( Application Binary 
Interface, ABI)。 

计算 机 体系 结构 可 以 让 计算 机 设计 者 独立 地 讨论 功能 ， 而 不 
必 考 虑 具体 硬件 。 例 如 ， 我 们 讨论 数字 时 钟 的 功能 (如 计时 、 显 
示 时 间 、 设 置 闹钟 ) 时 ， 可 以 不 涉及 时 钟 的 硬件 (如 石英 晶体 、 





控制 器 : 处 理 器 中 根据 程 
序 的 指令 指挥 数据 通路 、 
存储 器 和 IO 设备 的 部 分 


内 存 : 程序 运行 时 的 存储 
空间 ， 同 时 还 存储 程序 运 
行 时 所 需 的 数据 


DRAM : 动态 随机 访问 存 
储 器 ， 集 成 电路 形式 的 存 
储 器 ， 可 随机 访问 任何 地 
址 的 内 存 。 在 2012 年 ， 其 
访问 时 间 大 约 为 50ns， 每 
GB 的 价格 为 5 一 10 美元 。 


高 速 缓存 : 高 速 缓存 是 一 种 
小 而 快 的 存储 器 ， 一 般 作 
为 大 而 慢 的 存储 器 的 缓冲 


静态 随机 访问 存储 器 : 另 
一 种 集成 电路 形式 的 存储 
器 ， 但 是 比 DRAM 更 快 ， 
集成 度 更 低 


指令 系统 体系 结构 : 也 叫 体 
系 结构 ， 是 低层 次 软件 和 
硬件 之 间 的 抽象 接口 ， 包 
含 了 需要 编写 正确 运行 的 
机 器 语言 程序 所 需要 的 全 
部 信息 ， 包 括 指令 、 寄 存 
器 、 存 储 器 访问 和 IO 等 
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LED 显示 、 按 钮 )。 计 算 机 设计 者 将 体系 结构 与 体系 结构 的 实现 | 应 用 二 进 制 接口 : 用 户 部 

(implementation) 分 开 考 上 era 必 同 样 的 思路 : 硬件 的 实现 方式 必 | 分 的 指令 加 上 应 用 程序 员 

须 依照 es 这 些 概念 产生 了 另 一 个 重点 。 调用 的 操作 系统 接口 ， 定 
外 如 休 地 HH A ke 义 了 二 进 制 层次 可 移植 的 

| 重启 无 论 硬 件 还 是 软件 都 可 以 使 用 抽象 分 成 多 个 层次 ， 计算 机 的 标准 

较 低 的 层次 把 细节 对 上 层 隐 藏 起 抽象 层次 中 的 一 个 关键 接口 

指令 系统 体系 结构 一 一 硬件 和 底层 软件 之 间 上 be 口 。 这 一 抽象 接口 ”| 实现 : 遵循 体系 结构 抽象 

使 得 同一 软件 可 以 由 成 本 不 同 、 性 能 : 现 方 法 来 完成 的 妥 伯 。 


i 





处 理 器 处 理 器 
数据 通路 2 数据 通路 2 


处 理 器 处 理 器 
数据 通路 1 数据 通路 1 


数字 
逻辑 模块 


ARM 核 ARM 核 


DDR 
SDRAM 
接口 





DDR SDRAM 接口 PLL Wi-Fi 
图 1-9 A5 内 部 的 处 理 器 集成 电路 。 芯 片 尺寸 为 12.1mm x 10.1mm， 采 用 45nm 工艺 制造 
( 见 1.5 节 )。 左 半 部 分 靠 中 间 的 位 置 是 两 个 相同 的 ARM 处 理 器 ， 左 上 角 的 四 分 之 一 
部 分 是 具有 4 条 数据 通路 的 图 形 处 理 单元 ( Graphic Processor Unit，GPU)， 左 下 角 
和 底部 是 与 主 存 的 接口 (Chipworks 友情 提供 ，www.chipworks.com ) 








1.4.4 数据 安全 


到 目前 为 止 ， 我 们 已 经 理解 了 如 何 输入 数据 ， 如 何 使 用 这 些 数 
据 进 行 计算 ,以 及 如 何 显示 结果 。 然 而 ,一 旦 关 掉 电源 ， 所 有 数据 
就 丢失 了 ， 因 为 计算 机 中 的 内 存 是 易 失 性 存储 。 与 之 不 同 的 是 ， 如 
果 关 掉 DVD 机 的 电源 ， 所 记录 的 内 容 将 不 会 丢失 ， 因 为 DVD 采用 
的 是 非 易 失 性 存储 。 

为 了 区 分 易 失 性 存储 与 非 易 失 性 存储 ， 我 们 将 前 者 称 为 主 存储 
(main memory) 或 主要 存储 ( primary memory)， 将 后 者 称 为 辅助 存 
储 ( secondary memory)。 辅 助 存 储 形成 了 芯 番 层次 中 更 低 的 一 层 。 
DRAM 自 1975 年 起 在 主 存储 中 占 主导 地 位 ， 而 磁盘 在 辅助 存储 中 
占 主 导 地 位 的 时 间 更 早 。 由 于 器 件 尺寸 和 前 面 所 述 的 特点 ， 非 易 失 
性 半导体 存储 一 一 闪存 (fash memory) 在 个 人 移动 设备 中 替代 了 磁 
盘 。 图 1-8 所 示 的 iPad 2 中 的 芯片 上 包含 了 闪存 。 除 了 非 易 失 性 外 ， 
闪存 比 DRAM 慢 ， 但 却 便 宜 很 多 。 虽 然 每 位 的 价格 高 于 磁盘 ， 但 是 
闪存 在 体积 、 电 容 、 可 靠 性 和 能 耗 方面 都 优 于 磁盘 。 因 此 闪存 是 个 
人 移动 设备 中 的 标准 辅助 存储 。 遗 憾 的 是 ， 与 硬盘 和 DRAM 不 同 的 
是 ， 闪 存在 写 入 100 000 ~~ 1 000 000 次 后 可 能 老化 或 损坏 。 因 此 ， 
文件 系统 必须 记录 写 操作 的 数目 ， 而 且 具 备 类 似 “移动 常用 的 数据 ” 
这 种 避免 存储 器 损坏 的 策略 。 在 第 $ 章 中 将 会 对 磁盘 和 闪存 进行 详 


细 介绍 。 


1.4.5 ”与 其 他 计算 机 通信 


我 们 已 经 介绍 了 如 何 输入 、 计 算 、 显 示 和 保存 数据 ， 但 对 于 今 
天 的 计算 机 来 说 ， 还 有 一 项 不 可 缺少 的 功能 : 计算 机 网 络 。 如 图 1-5 
所 示 ， 处 理 器 与 存储 器 和 IO 设备 连接 。 通 过 网 络 ， 一 台 计 算 机 可 
以 与 其 他 计算 机 通信 ， 从 而 扩展 计算 能 力 。 当 今 网 络 已 经 十 分 普遍 ， 
逐步 成 为 计算 机 系统 的 核心 组 成 部 分 。 一 台新 型 个 人 移动 设备 或 服 
务 器 如 果 没 有 网 络 接口 将 是 十 分 可 笑 的 。 联 网 的 计算 机 具有 如 下 几 


个 主要 优点 : 
e 通信 : 信息 可 在 计算 机 之 间 高 速 交换 。 
日 资源 共享 : IO 设备 可 以 通过 网 络 共 享 ， 不 必 每 台 计算 机 都 
配备 。 
e 远 距 离 访问 : 用 户 无 须 在 要 使 用 的 计算 机 旁边 ， 可 远 距 离 连 
接 计算 机 。 


网 络 的 传输 距离 和 性 能 是 多 种 多 样 的 ， 根 据 传输 速度 以 及 信息 
传输 的 距离 ， 通 信和 代价 随 之 增长 。 最 为 普遍 的 网 络 类 型 是 以 太 网 。 
它 的 传输 距离 可 达到 1 公里 ,传输 速率 可 达到 40Gbps。 根 据 传输 距 
离 和 速率 特点 ， 以 太 网 可 以 将 一 座 建筑 物 中 同一 层 的 计算 机 连接 起 
来 ， 这 就 形成 了 通常 称 为 局 域 网 (Local Area Network，LAN) 的 一 


易 失 性 存储 : 类 似 DRAM 
的 存储 器 ， 仅 在 加 电 时 保 
存 数据 


非 易 失 性 存储 : 在 摔 电 时 
仍 可 保持 数据 的 存储 器 ， 
用 于 存储 需 运 行 的 程序 ， 
例如 DVD。 


主 存储 : 也 叫 主要 存储 。 这 
种 存储 用 来 保持 运行 中 的 
程序 ， 在 现代 计算 机 中 一 
般 由 DRAM 组 成 。 


辅助 存储 : 非 易 失 性 存储 ， 
用 来 保存 两 次 运行 之 间 的 
程序 和 数据 。 在 个 人 移动 
设备 中 一 般 由 闪存 组 成 ， 
在 服务 器 中 由 磁盘 组 成 


磁盘 : 也 叫 硬盘 ， 是 使 用 
磁 介 质 材 料 构成 的 以 旋转 
盘 片 为 基础 的 非 易 失 性 二 
级 存储 设备 。 因 为 是 旋转 
的 机 械 设备 ， 所 以 磁盘 的 
访问 时 间 大 约 是 5 一 20 
毫秒 ，2012 年 每 GB 的 价 
格 大 约 为 0.05 一 0.1 美元 。 


闪存 : 一 种 非 易 失 性 半 导 
体内 存 ， 单 位 价格 和 速度 
均 低 于 DRAM， 但 单位 
价格 比 磁盘 高 ， 速 度 比 磁 
盘 快 。 其 访问 时 间 大 约 为 
5 一 50 毫秒 2012 年 每 
GB 的 价格 大 约 为 0.75 一 1 
美元 。 


局 域 网 : 一 种 用 于 在 一 定 
地 理 区 域 (例如 同一 栋 大 
楼 ) 内 传输 数据 的 网 络 。 
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个 例子 。 局 域 网 通过 交换 机 进行 连接 ， 可 以 所 洪 耻 由 与 雪 多 服务。 广域网 : 一 种 可 以 跨越 大 
广域网 可 跨越 大 陆 ， 是 因特网 的 骨干 构成 部 分 ， 可 支持 万 维 网 。 它 ”| 陆 数 百 公 里 的 网 络 。 
通常 以 光纤 为 基础 并 从 通信 公司 租用 。 

在 过 去 的 30 年 间 ， 因 为 广泛 的 使 用 和 性 能 的 大 幅度 提升 ， 网 络 已 经 改变 了 计算 的 方式 。 
在 20 世纪 70 年 代 ， 个 人 很 难 接触 到 电子 邮件 ， 网 络 和 Web 还 不 存在 ， 物 理 邮 寄 的 磁带 成 
为 两 地 之 间 传 输 大 量 数据 的 主要 载体 。 局 域 网 根本 不 存在 ， 少 数 几 个 广域网 容量 很 小 且 访 问 
受 限 。 

随 着 网 络 技术 的 进步 ， 网 络 变 得 越 来 越 便宜 ， 速 度 越 来 越 快 。30 多 年 前 ， 第 一 个 标准 
局 域 网 的 最 大 带宽 为 10Mbps， 只 能 支持 数 十 台 计 算 机 共享 工作 。 今天， 局 域 网 技术 已 能 提 
供 从 1Gbps 一 40Gbps 的 带宽 。 光 通信 技术 已 经 使 广域网 有 了 类 似 的 发 展 ， 带 宽 从 几 百 Kbps 
到 Gbps， 支 持 几 百 到 几 百 万 台 计算 机 与 全 球 网 络 互 连 。 网 络 规模 的 飞速 扩大 ， 伴 随 着 带宽 
的 急剧 增长 ， 使 得 网 络 技术 成 为 最 近 30 年 来 信息 革命 的 中 心 。 

最 近 10 年 来 ， 新 的 联网 创新 变革 了 计算 机 通信 的 方式 。 推 动 后 PC 时 代 的 无 线 技 术 的 
广泛 应 用 ， 加 上 原本 用 于 无 线 电 的 廉价 半导体 技术 ( CMOS) 被 用 于 存储 器 和 微 处 理 器 ， 使 
其 价格 大 幅度 降低 ， 产 量 剧 增 。 当 前 无 线 通信 技术 (IEEE 标准 802.11 ) 支持 从 1Mbps 到 近 
100Mbps 的 传输 速率 。 无 线 技术 和 基于 线路 的 网 络 相 当 不 同 ， 因 为 所 有 用 户 可 以 在 最 近 的 区 
域 里 共享 电波 。 






8 DRAN 的 近 人 从 二 方面 和 比较 。 


1.5 处理 器 和 存储 制造 技术 


处 理 器 和 存储 正在 以 难以 置信 的 速度 发 展 ， 因 为 计算 机 设计 者 一 直 采 用 最 新 的 电子 技术 
进行 设计 ， 以 期 在 竞争 中 取得 优势 。 图 1-10 描述 了 不 断 进步 的 各 种 新 型 技术 ， 包 括 其 出 现 
的 时 间 和 性 价 比 。 这 些 技术 确定 了 计算 机 能 够 做 什么 ， 以 及 以 多 快 的 速度 发 展 变化 。 我 们 相 
信 ， 所 有 计算 机 专业 人 员 都 应 该 熟悉 集成 电路 的 基础 知识 。 


计算 机 中 采用 的 技术 相对 性 价 比 

| 
[sl BM | | 
集成 电 了 | 


直 大 规模 和 成 电 有 
大 规 模 入 成 电路 
图 1-10 随 着 时 间 的 推进 ， 不 同 计算 机 实现 技术 的 性 价 比 。 来 源 : 波士顿 计算 机 博物 馆 ， 其 
中 2013 年 的 数据 由 作者 推断 得 到 ( 见 1.12 节 ) 








晶体 管 仅仅 是 一 种 受 电流 控制 的 开关 。 集 成 电路 是 由 成 千 上 
万 个 晶体 管 组 成 的 芯片 。 当 戈 登 .摩尔 预测 资源 持续 翻番 时 ， 他 是 
在 预测 单 芯片 上 晶体 管 数量 的 增长 速度 。 为 了 描述 这 些 晶体 管 从 几 


晶体 管 : 一 种 由 电信 号 控 
制 的 简单 开关 。 
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百 个 增长 到 成 千 上 万 的 情形 ， 形 容 词 超 大 规模 被 添加 到 术语 中 ， 即 超大 规模 集成 电路 ( Very 


Large-Scale Integrated Circuit)， 简 写 为 VLSI。 


集成 度 的 增长 率 是 相当 稳定 的 。 图 1-11 描述 了 自 1977 年 以 来 ”| 超大 规模 集成 电路 : 由 数 


DRAM 容量 的 发 展 情况 。 近 35 年 以 来 ， 该 行业 持续 发 展 使 得 每 隔 3 

年 DRAM 的 容量 就 翻 两 番 ， 累 积 增长 已 超过 16 000 售 ! 

10 000 000 

1 000 000 
100 000 
10 000 


1000 


容量 ( 单位 : Kib ) 


100 


十 万 到 数 百 万 晶体 管 组 成 
的 电路 





10 
1976 1978 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 


引入 年 份 


图 1-11 单 片 DRAM 容量 随时 间 增 长 的 情况 。 纵 轴 单 位 为 Kib ( 2" 位 )。 在 过 去 的 20 多 年 
中 ,平均 每 隔 3 年 DRAM 容量 翻 两 番 ， 即 每 年 增长 约 60%。 在 最 近 几 年 中 ， 增 长 


速度 有 所 下 降 ， 接 近 每 2 至 3 年 翻 一 番 的 水 平 


为 了 理解 集成 电路 的 制造 过 程 ， 我 们 从 头 开始 介绍 。 芯 片 的 制 
造 从 硅 开始 ， 硅 是 沙子 中 的 一 种 物质 。 由 于 硅 的 导电 能 力 不 强 ， 因 
此 称 为 半导体 。 使 用 特殊 的 化 学 方法 可 以 对 硅 添加 某 些 材 料 ， 将 其 
细微 的 区 域 转变 为 以 下 三 种 类 型 之 一 : 

。 优秀 的 导电 体 (细微 的 铜 线 或 铝 线 )。 

。 优秀 的 绝缘 体 (类 似 于 塑料 或 玻璃 膜 )。 

。 可 在 特殊 条 件 下 导电 或 绝缘 的 区 域 (作为 开关 )。 

晶体 管 属于 第 三 种 类 型 。VLSI 电路 是 由 数 十 亿 个 上 述 三 种 类 型 
的 材料 组 合 起 来 并 封装 在 一 起 制 成 的 。 

集成 电路 的 制造 过 程 对 芯片 的 价格 非常 关键 ， 因 此 对 计算 机 设 
计 者 十 分 重要 。 图 1-12 给 出 了 集成 电路 制造 的 整个 过 程 。 集 成 电 
路 的 制造 是 从 硅 锭 (silicon crystal ingot) 开始 的 ， 它 像 一 根 巨 大 的 
香肠 。 目 前 使 用 的 硅 锭 直径 约 8 至 12 英寸 9， 长 度 约 12 至 24 英寸 。 
硅 锭 经 切片 机 切 成 厚度 不 超过 0.1 英寸 的 晶 圆 。 这 些 晶 圆 经 过 一 系 
列 化 学 加 工 过 程 最 终生 成 前 述 的 晶体 管 、 导 体 和 绝缘 体 。 如 今 的 集 
成 电路 仅 包含 一 层 晶 体 管 ， 但 可 能 具有 2 至 8 层 的 金属 导体 ， 并 由 
绝缘 层 隔 开 。 

晶 圆 或 者 曝光 成 像 的 几 十 个 步骤 中 出 现 一 个 细微 的 瑕 症 就 会 使 
其 附近 的 电路 失效 ， 这 些 缺 陷 ( defect) 使 得 制 成 一 个 完美 的 晶 圆 几 
乎 是 不 可 能 的 。 解 决 这 一 问题 的 最 简单 策略 是 ， 将 许多 独立 组 件 放 
置 在 某 一 晶 圆 上 ， 然 后 在 曝光 成 像 后 切割 为 晶片 (die)， 有 时 候 也 不 


日 1 英寸 = 0.0254 米 。 一 一 编辑 注 


硅 : 一 种 自然 元 素 ， 是 一 
种 半导体 。 


半导体 : 一 种 导电 性 能 不 
好 的 物质 。 


硅 锭 : 一 根 由 单 硅 晶 体 构 
成 的 圆 棒 。 直 径 约 8 一 12 
英寸 长度 约 I2 一 24 
英寸 。 


晶 圆 : 厚度 不 超过 0.1 英 
才 的 硅 锭 切片 ， 用 于 制造 


芯片 。 


缺陷 : 唱 圆 或 者 曝光 成 像 
过 程 中 的 一 个 微小 的 瑕 
疯 ， 晶 片 可 能 因为 包含 这 
个 缺陷 而 失效 。 


晶片 : 从 晶 圆 中 切割 出 来 
的 一 个 单独 的 矩形 区 域 ， 
非 正 式 的 名 称 是 芯片 。 


矿 当 抽动 象 及 相关 技术 
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正式 地 称 为 芯片 (chip)。 图 1-13 的 照片 所 示 就 是 切割 之 前 的 微 处 理 器 唱 圆 ， 而 图 1-9 贝 
个 微 处 理 器 晶片 的 照片 。 


硅 锭 空白 晶 圆 
20 一 40 个 
rm 一 Mme ( i 生产 步骤 
测试 后 的 晶片 曝光 成 像 后 的 晶 圆 
回回 测试 后 的 晶 圆 加 
口 风 口 区 
人 — He — wn (0 — 
pad 口 口 口 口 
| 口 口 
测试 后 的 
封装 后 的 芯片 封装 芯片 
加 GO . 回回 页 送 到 


加 回回““ 一 ~ [Ogiolo 用 户 手中 


图 1-12 ”芯片 制造 的 全 过 程 。 从 硅 锭 切 下 来 之 后 ， 空 白 的 唱 圆 经 过 大 约 20 一 40 步 的 加 工 ， 





上 是 单 


产生 曝光 成 像 后 的 晶 圆 ( 见 图 1-13 )。 这 些 曝光 成 像 后 的 晶 圆 由 唱 圆 测试 设备 进行 测 
试 ， 测 试 后 生成 一 张 图 ， 表 明 pr 之 后 ， 这 些 晶 圆 被 进一步 切 成 晶 
片 ( 见 图 1-9 )。 在 本 图 中 ， 一 个 晶 圆 能 生产 20 个 晶片 ， 17 个 通过 测试 ( x 
表示 该 晶片 存在 缺陷 ) 本 例 中 晶片 的 良 率 17/20， 也 就 是 85%。 这 些 合格 唱片 被 


封装 起 来 并 且 在 发 布 给 用 户 之 前 再 次 测试 。 不 合格 的 封装 会 在 最 终 测试 中 被 发 现 





图 1-13 Intel Core i7 芯片 的 12 英 寸 (300mm) 晶 圆 ( Intel 提供 )。 该 晶 圆 在 良 率 为 100% 
由 可 产生 的 晶片 数目 是 280， 每 个 为 20.7mm x 10.5mm。 品 圆 边缘 几 十 个 不 完整 

芯片 是 没 用 的 。 之 所 以 包含 它们 ， 是 因为 这 样 给 硅 片 生产 用 于 曝光 的 掩 膜 相 对 容 

该 晶片 使 用 32nm 的 工艺 ， 这 意味 着 最 小 的 晶体 管 的 特征 尺寸 约 为 32nm， 尽 

管 它们 通常 比 实际 的 特征 尺寸 还 要 小 。 这 个 特征 尺寸 是 将 晶体 管 “图 纸 尺 寸 ” 和 最 


全 的 生产 尺寸 相 比 得 出 的 


通过 切 分 ， pope eet eto as 良 率 : 合格 芯片 数 占 总 芯 


圆 。 对 这 一 过 程 的 量化 描述 可 以 用 工艺 良 率 (yield) 来 表示 ， 其 定 | 片 数 的 百分比 
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义 为 合格 晶片 数 占 总 晶片 数 的 百分比 。 
当 晶 片 尺寸 增 大 时 ， 集 成 电路 的 价格 会 快速 上 升 ， 因 为 良 率 和 晶 圆 中 晶片 的 总 数 都 下 降 
了 。 为 了 降低 价格 ， 较 大 的 晶片 常 采用 下 一 代 工 艺 来 收缩 尺寸 ， 因 为 它 使 用 了 更 小 的 晶体 管 
和 导线 。 这 可 以 改进 每 唱 圆 的 晶片 数 和 工艺 良 率 。2012 年 的 典型 工艺 尺寸 为 32nm， 这 意味 
着 晶片 上 的 最 小 特征 尺寸 是 32nm。 
合格 晶片 要 连接 到 IO 引 脚 上 ， 使 用 压 焊 工艺 形成 封装 。 由 于 封装 过 程 也 可 能 出 错 ， 因 
此 在 封装 之 后 必须 进行 最 后 一 次 测试 再 交付 给 用 户 。 
| 说 细 阐 带 | 集成 电路 的 成 本 可 以 用 下 面 3 个 简单 公式 来 表示 : 
a 每 晶 圆 的 价格 
Wd ye 


每 晶 圆 的 晶片 数 =-= 








工艺 良 率 一 0 二 (单位 亩 积 的 鲜 陷 台 又 让 片面 积 12))? 
第 一 个 公式 是 直接 导出 的 。 第 二 个 公式 是 近似 的 ， 因 为 没有 减 去 唱 图 边 上 不 满足 晶片 从 
形 要 求 的 面积 (参见 图 1-13 )。 第 三 个 公式 是 基于 集成 电路 工厂 的 良 率 经 验 ， 与 重要 加 工 步 
又 的 数量 呈 指 数 关系 。 
因此 ， 唱 片 的 成 本 取决 于 工艺 良 率 、 唱 片 和 晶 圆 的 面积 ， 与 晶片 面积 之 间 一 般 并 不 是 线 
性 关系 。 
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1.6 ”性 能 


对 计算 机 的 性 能 进行 评价 是 富有 挑战 性 的 。 由 于 现代 软件 系统 的 规模 及 其 复杂 性 ， 加 上 
硬件 设计 者 广泛 采用 了 大 量 先进 的 性 能 改进 方法 ， 使 性 能 评价 变 得 更 加 困难 。 

在 不 同 的 计算 机 中 挑选 合适 的 产品 ， 性 能 是 极其 重要 的 因素 之 一 。 精 确 地 测量 和 比较 不 
同 计算 机 之 间 的 性 能 对 于 购买 者 和 设计 者 都 很 重要 。 销 售 计算 机 的 人 也 需要 知道 这 些 。 销 售 
人 员 通 常 希望 用 户 看 到 他 们 的 计算 机 表现 最 好 的 一 面 ， 无 论 这 一 面 是 否 能 准确 地 反映 购买 者 
的 应 用 需求 。 因 此 ， 理 解 怎样 才能 更 合理 地 测量 性 能 并 知晓 所 选择 的 计算 机 的 性 能 限制 相当 
重要 。 

本 节 将 首先 介绍 性 能 评价 的 不 同方 法 ， 然 后 分 别 从 计算 机 用 户 和 设计 者 的 角度 描述 性 能 
的 度量 标准 ， 最 后 分 析 这 些 度量 标准 之 间 有 什么 联系 ， 并 提出 经 典 的 处 理 器 性 能 公式 ， 我 们 
在 全 书 中 都 要 使 用 它 进 行 性 能 分 析 。 
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1.6.1 性 能 的 定义 


当 我 们 说 一 台 计 算 机 比 另 一 台 计 算 机 具有 更 好 的 性 能 时 ， 意 味 着 什么 ?虽然 这 个 问题 看 
起 来 很 简单 ， 但 如 果 用 客机 问题 模拟 一 下 ， 就 可 以 知道 其 内 藏 玄机 。 图 1-14 列 出 了 若干 典 
型 客机 的 型 号 、 载 客 量 、 航 程 、 航 速 等 参数 。 如 果 要 指出 表 中 哪 架 客机 的 性 能 最 好 ， 那 么 我 
们 首先 要 对 性 能 进行 定义 。 如 果 考 虑 不 同 的 性 能 度量 ， 那 么 性 能 最 佳 的 客机 是 不 同 的 。 可 以 
看 到 ， 巡 航速 度 最 高 的 是 Concorde (已 于 2003 年 退出 服务 序列 )， 航 程 最 远 的 是 DC-8-50， 
载 客 量 最 大 的 则 是 747。 


乘客 吞吐 率 
ni 程 ( 英里 } ee ( 载 客 量 x 航 速 ) 
610 


228 750 





二 Concorde 132 4000 1350 178 200 
道格拉斯 DC-8-50 146 8720 544 79 424 


图 1-14 若干 商用 飞机 的 载 客 量 、 航 程 和 航速 。 最 后 一 列 展示 的 是 飞机 运载 乘客 的 速度 ， 它 
等 于 载 客 量 乘 以 航速 (忽略 距离 、 起 飞 和 降落 次 数 ) 











假定 用 速度 来 定义 性 能 ， 这 里 仍然 有 两 种 可 能 的 定义 。 如 果 你 关心 点 对 点 的 到 达 时 间 ， 
那么 可 以 认为 只 搭载 名 旅客 的 航速 最 快 的 客机 是 性 能 最 好 的 。 如 果 你 关心 的 是 运输 450 名 
旅客 ,那么 如 图 中 最 后 一 列 所 示 ，747 的 性 能 是 最 好 的 。 与 此 类 似 ， 我 们 可 以 用 若干 不 同 的 
方法 来 定义 计算 机 性 能 。 

如 果 你 在 两 台 不 同 的 桌面 计算 机 上 运行 同一 个 程序 ， 那 么 可 以 “| 网 应 时 间 : 也 叫 执行 时 间 
说 首先 完成 作业 的 那 台 计算 机 更 快 。 如 果 你 运行 的 是 一 个 数据 中 心 ， (execution time)， 是 计算 机 
有 好 几 台 服务 器 供 很 多 用 户 投放 作业 ， 那 么 应 该 说 在 一 天 之 内 完 
成 作业 最 多 的 那 台 计算 机 更 快 。 个 人 计算 机 用 户 会 对 降低 响应 时 间 | Oo 活动， 提 放 系统 开 入 
(response time) 感 兴趣 ， 啊 应 时 间 是 指 从 开始 一 个 任务 到 该 任务 完 | 和 CPU 执行 时 间 等 。 
成 的 时 间 ， 又 被 称 为 执行 时 间 。 而 数据 中 心 的 管理 者 感 兴趣 的 常常 
是 提高 天 吐 率 或 者 带宽 一 一 在 给 定时 间 内 完成 的 任务 数 。 因 此 ， 在 | 人 en 
大 多 数 情况 下 ， 我 们 需要 对 个 人 移动 设备 采用 不 同 的 应 用 程序 作为 “| 如 大 吉 ， 表示 单位 时 间 汉 
评测 基准 ， 并 采用 不 同 的 性 能 度量 标准 。 个 人 移动 设备 更 关注 响应 | 完成 的 任务 数量 。 
时 间 ， 而 服务 器 则 更 关注 吞吐 率 。 


| 例题 | 吞吐 率 和 响应 时 间 

下 面 两 种 改进 计算 机 系统 的 方式 能 否 增加 其 吞吐 率 或 减少 其 响应 时 间 ， 或 可 二 者 兼 得 ? 

1. 将 计算 机 中 的 处 理 器 更 换 为 更 高 速 的 型 号 。 

2. 为 系统 增加 额外 的 处 理 器 ， 使 用 多 处 理 器 来 分 别处 理 独立 的 任务 ， 如 搜索 万 维 网 等 。 
| 答案 | 一 般 来 说 ， 降 低 响应 时 间 几 乎 总 是 可 以 增加 春 吐 率 。 因 此 ， 方式 1 同时 改进 了 响应 
时 间 和 吞吐 率 。 方 式 2 不 会 使 任务 完成 得 更 快 ， 只 有 吞吐 率 得 到 提高 。 

但 是 ， 如 果 方 式 2 对 处 理 任务 的 需求 和 吞吐 率 一 样 大 ， 系 统 可 能 强制 后 续 请 求 进行 排 
队 。 在 这 种 情况 下 ， 改 善 吞吐 率 可 同时 改进 响应 时 间 ， 因 为 这 会 减少 队列 中 的 等 待 时 间 。 所 
以 ,在 实际 的 计算 机 系统 中 ， 响 应 时 间 和 吞吐 率 往往 相互 影响 。 = 
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在 讨论 计算 机 性 能 时 ， 本 书 前 几 章 将 主要 考虑 响应 时 间 。 为 了 使 性 能 最 大 化 ， 我 们 和 希望 
任务 的 响应 时 间或 执行 时 间 最 小 化 。 对 于 某 个 计算 机 X， 我 们 可 将 性 能 和 执行 时 间 的 关系 表 
达 为 : 

CY 
” 执行 时 间 、 
这 意味 着 如 果 有 两 台 计 算 机 X 和 YY, X 比 立 性 能 更 好 ， 则 有 
性 能 x> 性 能 y 
1 1 
执行 时 间 x 执行 时 间 、 
执行 时 间 y> 执行 时 间 x 
也 就 是 说 ， 如 果 Y 的 执行 时 间 比 X 长 ， 那 么 就 说 XX 比 Y 快 。 

在 讨论 计算 机 设计 时 ， 经 常 要 定量 地 比较 两 台 不 同 计算 机 的 性 能 。 我 们 将 使 用 “XX 的 执 

行 速 度 是 Y 的 n 倍 ”的 表述 方式 ， 即 


性 能 








性 能 x _ 
性 能 、 
如 果 X 的 执行 速度 是 Y 的 n 倍 ， 那么 在 Y 上 的 执行 时 间 是 在 X 上 的 执行 时 间 的 n 倍 ， 即 
性 能 、_ 执行 时 间 y_ 
性 能 、 ”执行 时 间 。 
| 例题 | 相对 性 能 








如 果 计 算 机 A 运行 一 个 程序 只 需要 10 秒 ， 而 计算 机 B 运行 同样 的 程序 需要 15 秒 ， 那 
么 计算 机 A 比 计算 机 B 快 多 少 ? 
| 答案 | 我 们 知道 ， 如 果 


性 能 。_ 执行 时 间 a _ 





性 能 。 ”执行 时 间 ， 
则 计算 机 A 的 执行 速度 是 计算 机 B 的 4 售 ， 故 性 能 之 比 为 
es. 二 外 光 
10 


因此 A 的 执行 速度 是 计算 机 B 的 1.5 倍 。 
在 以 上 的 例子 中 ， 我 们 可 以 说 ， 计 算 机 B 比 计算 机 和 A 慢 1/3 ， 因 为 








本 
意味 着 
1:5 
简单 地 说 ， 当 我 们 试图 将 计算 机 的 比较 结果 量化 时 ， 通 常 使 用 术语 “和 …… 的 性 能 一 


样 " 。 因 为 性 能 和 执行 时 间 是 倒数 关系 ， 提 高 性 能 就 需要 减少 执行 时 间 。 为 了 避免 对 术语 增 
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加 和 减少 的 潜在 误解 ， 当 我 们 想 说 “改善 性 能 ”和 “改善 执行 时 间 ” 的 时 候 ， 通常 说 “增加 
性 能 ”和 “减少 执行 时 间 ”。 


1.6.2 ”性 能 的 度量 


时 间 是 计算 机 性 能 的 衡量 标准 : 完成 同样 的 计算 任务 ， 需 要 时 间 最 少 的 计算 机 是 最 快 
的 。 程 序 的 执行 时 间 一 般 以 秒 为 单位 。 然 而 ， 时 间 可 以 用 不 同 的 方式 来 定义 ， 这 取决 于 我 们 
所 计数 的 内 容 。 对 时 间 最 直接 的 定义 是 挂钟 时 间 (wall clock time)， 也 叫 响 应 时 间 (response 
time)、 运 行 时 间 〈elapsed time) 等 。 这 些 术语 均 表 示 完 成 某 项 任务 所 需 的 总 时 间 ， 包 括 了 磁 
盘 访 问 、 内 存 访 问 、LIO 活动 和 操作 系统 开销 等 一 切 时 间 。 

计算 机 经 常 被 共享 使 用 ， 一 个 处 理 器 也 可 能 同时 运行 多 个 程序 。 在 这 种 情况 下 ， 系 统 可 
能 更 侧重 于 优化 吞吐 率 ， 而 不 是 致力 于 将 单个 程序 的 执行 时 间 变 得 最 短 。 因 此 ， 我 们 往往 要 
把 运行 自己 任务 的 时 间 与 一 般 的 运行 时 间 区 别 开 来 。 在 这 里 可 以 使 
用 CPU 执行 时 间 ( CPU execution time) 来 进行 区 别 ， 简 称 为 CPU 
时 间 ， 只 表示 在 CPU 上 花费 的 时 间 ， 而 不 包括 等 待 IO 或 运行 其 他 
程序 的 时 间 。( 需 要 注意 的 是 ， 用 户 所 感受 到 的 是 程序 的 运行 时 间 ， 
而 不 是 CPU 时 间 。) CPU 时 间 还 可 进一步 分 为 用 于 用 户 程序 的 时 间 | 用 户 CPU 时 间 : 程序 本 
和 操作 系统 为 用 户 程 序 执行 相关 任务 所 花 去 的 CPU 时 间 。 前 者 称 为 Er 
用 户 CPU 时 间 (user CPU time)， 后 者 称 为 系统 CPU 时 间 (system 
CPU time)。 要 精确 区 分 这 两 种 CPU 时 间 是 困难 的 ， 因 为 通常 难以 
分 清 哪 些 操 作 系 统 的 活动 是 属于 哪个 用 户 程 序 的 ， 而 且 不 同 操作 系 
统 的 功能 也 千差万别 。 

为 了 一 致 ， 我 们 保持 区 分 基于 响应 时 间 的 性 能 和 基于 CPU 执行 时 间 的 性 能 。 我 们 使 用 
术语 系统 性 能 ( system performance) 表示 空 载 系统 的 响应 时 间 ， 并 用 术语 CPU 性 能 (CPU 
performance) 表示 用 户 CPU 时 间 。 本 章 我 们 概括 介绍 计算 机 性 能 ， 虽 然 既 适用 于 响应 时 间 
的 度量 ， 也 适用 于 CPU 时 间 的 度量 ， 但 本 章 的 重点 将 放 在 CPU 性 能 上 。 

| 王 解 程 摩 鸯 | 不同 的 应 用 关注 计算 机 系统 性 能 的 不 同方 面 。 许 多 应 用 ， 特 别 是 那些 运 
行 在 服务 器 上 的 应 用 ， 主 要 关注 IO 性 能 ， 所 以 此 类 应 用 既 依赖 硬件 又 依赖 软件 ， 关 注 的 是 
测量 出 的 总 执行 时 间 。 在 其 他 一 些 应 用 中 ， 用 户 可 能 对 吞吐 率 、 响 应 时 间或 两 者 的 复杂 组 合 
更 为 关注 (例如 ， 最 差 响 应 时 间 下 的 最 大 吞吐 率 )。 要 改进 程序 的 性 能 ， 必 须 明确 定义 性 能 指 
标 ， 然 后 通过 测量 程序 执行 时 间 、 查 找 可 能 的 限制 因素 来 找到 性 能 瓶颈 。 在 后 续 章节 中 ， 我 
们 将 介绍 如 何在 系统 的 各 个 部 分 寻找 瓶颈 并 改进 性 能 。 

虽然 作为 计算 机 用 户 我 们 关心 的 是 时 间 ， 但 当 我 们 深入 研究 计 
算 机 的 细节 时 ， 使 用 其 他 的 度量 可 能 更 为 方便 。 特 别 是 对 计算 机 设 | 名 二 
计 者 而 言 ， 他 们 需要 考虑 如 何 度 量 计算 机 硬件 完成 基本 功能 的 速度 。 | 加 如 ， 为 并 人 才 <= 本寺 对 
几乎 所 有 计算 机 的 构建 都 需要 基于 时 钟 ， 该 时 钟 确定 各 类 事件 在 硬 | 周期 的 时 间 ， 通 常 是 指 处 
件 中 何 时 发 生 。 这 些 离散 时 间 间 隔 被 称 为 时 钟 周 期 数 ( clock cycle， | 理 加 时钟， 并 在 固定 频率 
或 称 滴答 数 、 时 钟 滴答 数 、 时 钟 数 、 周 期 数 )。 设 计 人 员 在 提 及 时 | 
钟 周期 时 ， 可 能 使 用 完整 时 钟 周 期 的 时 间 (例如 250 皮 秒 或 250ps)， 

也 可 能 使 用 时 钟 周期 的 倒数 ， 即 时 钟 频率 (例如 4GHz)， 在 下 一 小 节 | 周期 长 度 : 每 个 时 钟 周期 
中 ,我 们 将 正式 确定 硬件 设计 者 常用 的 时 钟 周 期 与 计算 机 用 户 常用 | 持续 的 时 间 长 度 。 


CPU 执行 时 间 : 简称 为 
CPU 时 间 ， 执 行 某 一 任务 
在 CPU 上 所 花费 的 时 间 。 





系统 CPU 时 间 : 为 执行 
程序 而 花费 在 操作 系统 上 
的 时 间 。 
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的 秒 数 之 间 的 关系 。 





f 
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Pe ep 
自我 检测 i 
1 仿 设 某 应 用 同时 合用 了 个 人 移动 设备 和 云 ， 其 性能 受 网 络 性 能 限制 。 那 么 对 于 下 列 三 种 方 
法 ， 哪 种 只 改进 了 吞吐 率 ? 哪 种 同时 改进 了 响应 时 间 和 吞吐 率 ? 哪 种 都 没有 改进 ? 
人 和 和 之 六 加 一 条 的 辣 信 。 从 而 因由， 关 少 






运行 同样 的 应 用 需要 多 长 时 间 ? 
1.6.3 CPU 性 能 及 其 度量 因素 

用 户 和 设计 者 往往 用 不 同 的 指标 衡量 性 能 。 如 果 我 们 能 够 将 这 些 不 同 的 指标 联系 起 来 ， 
就 可 以 确定 设计 变更 对 用 户 可 感知 的 性 能 的 影响 ， 由 于 我 们 都 在 关注 CPU 性 能 ， 因 此 性 能 
度量 的 基本 指标 应 该 是 CPU 执行 时 间 。 一 个 简单 公式 可 将 最 基本 的 指标 (时钟 周 期 数 和 时 钟 
周期 长 度 ) 与 CPU 时 间 联 系 起 来 : 

程序 的 CPU 执行 时 间 二 程序 的 CPU 时 钟 周期 数 x 时 钟 周 期 长 度 

由 于 时 钟 频率 和 时 钟 周期 长 度 互 为 倒数 ， 故 另 一 种 表达 形式 为 
程序 的 CPU 时 钟 周期 数 

时 钟 频 率 
这 个 公式 清楚 地 表明 ， 硬 件 设计 者 减少 程序 执行 所 需 的 CPU 时 钟 周期 数 或 缩短 时 钟 周期 长 
度 ， 就 能 改进 性 能 。 在 后 面 几 章 中 我 们 将 看 到 ， 设 计 者 经 常 要 面 对 这 二 者 之 间 的 权衡 。 许 多 
技术 在 减少 时 钟 周期 数 的 同时 也 会 增加 时 钟 周期 长 度 。 


| 例题 | 改进 性 能 . 
我 们 最 喜欢 的 某 个 程序 在 时 钟 频率 为 2GHz 的 计算 机 A 上 运行 需要 10 秒 。 现 在 尝试 帮 

助 计算 机 设计 者 建造 一 台 计 算 机 B， 将 运行 时 间 缩 短 为 6 秒 。 设 计 人 员 已 经 确定 可 以 大 幅 提 

高 时 钟 频 率 ， 但 这 可 能 会 影响 CPU 其 余部 分 的 设计 ， 使 得 计算 机 B 运行 该 程序 时 需要 相当 

于 计算 机 A 的 1.2 倍 的 时 钟 周 期 数 。 那 么 ， 我 们 应 该 建议 计算 机 设计 者 将 时 钟 频 率 设计 目标 

确定 为 多 少 ? 

| 答案 | 我 们 首先 要 知道 在 A 上 运行 该 程序 需要 多 少时 钟 周期 数 : 


程序 的 CPU 执 行 时 间 = 





CPU 时 钟 周 期 数 、 
CPU 时 间 。、 -一 时 名 频率 、“ 
10 秒 = CPU 时 钟 周期 数 ^ 


0y 时 钟 周期 数 
和 


CPU 时 钟 周期 数 。=10 秒 x2xl 


0 二 -20x10? 时 名 周期 
M4 


在 B 上 执行 程序 的 CPU 时 间 可 用 下 述 公 式 计算 : 
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了 _1.2xCPU 时 钟 周期 数 A 

CPU 时 间 。 时 钟 闫 率 。 

1.2x20x10” 时 钟 周期 数 
时 钟 频率 


_1.2x20x10? 时 钟 周期 数 _0.2x20x10? 时 钟 周期 数 
6 秒 秒 
_4x10° 时 钟 周期 数 
秒 


6 秒 = 


时 钟 频率 。 


=4GHz 
因此 ， 要 在 6 秒 内 运行 完 该 程序 ， 计 算 机 B 的 时 钟 频率 必须 提高 为 A 的 2 信 。 一 一 一 一 
1.6.4 指令 性 能 


上 述 性 能 公式 并 未 涉及 程序 所 需 的 指令 数 。 然 而 ， 由 于 编译 器 明确 生成 了 要 执行 的 指 
令 ， 且 计算 机 必须 通过 执行 指令 来 运行 程序 ， 因 此 执行 时 间 必 然 依赖 于 程序 中 的 指令 数 。 一 
种 考虑 执行 时 间 的 方法 是 ， 执 行 时 间 等 于 执行 的 指令 数 乘 以 每 条 指令 的 平均 时 间 。 因 此 , 一 
个 程序 需要 的 时 钟 周期 数 可 写 为 : 

CPU 时 钟 周期 数 = 程序 的 指令 数 X 指令 平均 时 钟 周期 数 

指令 平均 时 钟 周期 数 (clock cycle per instruction) 表示 执行 每 条 
指令 所 需 的 时 钟 周 期 平均 数 ， 缩 写 为 CPI。 根 据 所 完成 任务 的 不 同 ， ee 
不 同 的 指令 需要 的 时 间 可 能 不 同 ，CPI 是 程序 的 所 有 指令 所 用 时 钟 | 全 计生 人 于 于 人 
周期 的 平均 数 。CPI 提供 了 一 种 相同 指令 系统 在 不 同 实 现下 比较 性 ”| 钟 周期 平均 数 。 
能 的 方法 ， 因 为 在 指令 系统 不 变 的 情况 下 ， 一 个 程序 执行 的 指令 数 
是 不 变 的 。 


| 例题 | 性 能 公式 的 使 用 
假设 我 们 有 相同 指令 系统 的 两 种 不 同 实现 。 计 算 机 A 的 时 钟 周 期 长 度 为 250ps， 对 某 程 
序 的 CPI 为 2.0; 计算 机 B 的 时 钟 周期 长 度 为 500ps， 对 同样 程序 的 CPI 为 1.2。 对 于 该 程序 ， 
请 问 哪 台 计算 机 执行 的 速度 更 快 ? 快 多 少 ? 
| 答案 | 我 们 知道 ， 对 于 固定 的 程序 ， 每 台 计 算 机 执行 的 总 指令 数 是 相同 的 ， 我 们 用 了 来 表 
示 该 数值 。 首 先 ， 求 每 台 计 算 机 的 CPU 时 钟 周期 数 : 
CPU 时 钟 周期 数 。= TX2.0 
CPU 时 钟 周期 数 B=7TX 1.2 
现在 ， 可 以 计算 每 台 计 算 机 的 CPU 时 间 : 
CPU 时 间 ^= CPU 时 钟 周期 数 AX 时 钟 周 期 长 度 =7Xx2.0x250ps=500Xx7ps 
对 于 B， 同 理 有 : 





CPU 时 间 B=7x1.2Xx500ps=600X7ps 
显然 ， 计 算 机 A 更 快 。 具 体 快 多 少 可 由 执行 时 间 之 比 来 计算 给 出 : 
CPU 性 能 。_ 执行 时 间 s。_600xI ps _ 


CPU 性 能 。 执行 时 间 、 500xI ps 
因此 ， 对 于 该 程序 ， 计 算 机 A 的 性 能 是 计算 机 B 的 1.2 倍 。 和 
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1.6.5 ”经典 的 CPU 性 能 公式 


现在 我 们 可 以 用 指令 数 (程序 执行 所 需要 的 指令 总 数 )、CPI ( 指 | 指令 数 : 执行 某 程序 所 需 

令 平均 时 钟 周期 数 ) 和 时 钟 周期 长 度 来 写 出 基本 的 性 能 公式 : 的 总 指令 数量 。 
CPU 时 间 = 指令 数 XCPIX 时 钟 周期 长 度 
或 考虑 到 时 钟 频率 和 时 钟 周期 长 度 互 为 倒数 ， 可 写 为 : 
指令 数 xCPI 
时 钟 频率 

这 些 公式 特别 有 用 ， 因 为 它们 将 三 个 影响 性 能 的 关键 因素 进行 了 分 离 。 如 果 知 道 实现 方 
案 或 替代 方案 如 何 影响 这 三 个 参数 ， 我 们 可 用 这 些 公式 来 比较 不 同 的 实现 方案 或 评估 某 个 设 
计 的 替代 方案 。 


| 例题 | 代码 片段 的 比较 
编译 器 的 设计 人 员 试 图 为 某 计算 机 在 两 个 代码 序列 之 间 选 择 更 优 的 排列 。 硬 件 设计 者 给 
出 了 如 下 数据 : 


CPU 时 间 = 





对 于 某 特 定 高 级 语言 语句 的 实现 ， 两 个 代码 序列 所 需 的 指令 数量 如 下 : 


1 
2 


请 问 哪个 代码 序列 执行 的 指令 数 更 多 ?哪个 执行 速度 更 快 ? 每 个 代码 序列 的 CPI 分 别 是 
多 少 ? 
| 答案 | 代码 序列 1 共 执 行 2+1+2=5 条 指令 。 代 码 序列 2 共 执 行 4+1+1=6 条 指令 。 所 以 ， 代 
码 序 列 1 执行 的 指令 数 更 少 。 

基于 指令 数 和 CPI， 我 们 可 以 用 CPU 时 钟 周 期 数 公式 计算 出 每 个 代码 序列 的 总 时 钟 周 
期 数 : 








CPU 时 钟 周期 数 =》' ( CPLxC ) 
因此 
CPU 时 钟 周 期 数 1= (2xl)+(1x2)+(2x3)=2+2+6=10 个 周期 
CPU 时 钟 周 期 数 ?= (4x1)+(1x2)+(1x3)=4+2+3=9 个 周期 
故 代码 序列 2 更 快 ， 尽管 它 多 执行 了 一 条 指令 。 由 于 代码 序列 2 的 总 时 钟 周 期 数 较 少 ， 而 指 
令 数 较 多 ， 因 此 它 一 定 具有 和 较 小 的 总 CPI。CPI 可 使 用 如 下 公式 计算 : 


_ CPU 时 钟 周期 数 


CPI 
指令 数 
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_ CPU 时 钟 周期 数 ，_10 


CPI = 一 一 一 一 -2.0 
站 令 数 ， 5 

CPL = CO 和 合同 关 要 
此 令 数 ， 6 








| 车 珊 | 田 1-15 给 出 了 计算 机 在 不 同 层次 上 的 性 能 指标 及 其 测量 单位 。 通 过 这 些 指标 的 
组 合 可 以 计算 出 程序 的 执行 时 间 (单位 为 秒 ): 
秒 _ 指 令 数 时钟 周期 数 。 各 
程序 程序 ”指令 时钟 周期 


程序 的 CPU 执 行 时 间 程序 执行 的 时 间 ， 以 秒 为 单位 
指令 总 数 程序 执行 的 指令 数目 


执行 时 间 = 























指令 平均 时 钟 周期 数 ( CPU ) 每 条 指令 平均 执行 的 时 钟 周期 数 
时 钟 周期 长 度 每 个 时 钟 周期 的 长 度 ， 以 秒 为 单位 


图 1-15 基本 的 性 能 指标 及 其 测量 单位 





需要 铭记 于 心 的 是 ， 时 间 是 唯一 对 计算 机 性 能 进行 测量 的 完整 而 可 靠 的 指标 。 例如， 对 
指令 系统 进行 调整 从 而 减少 指令 数目 可 能 降低 时 钟 周期 长 度 或 提高 CPI， 从 而 抵消 了 指令 数 
量 改 进 所 带 来 的 效果 。 类 似 地 ， 由 于 CPI 与 执行 的 指令 类 型 相关 ， 执 行 指令 数 最 少 的 代码 未 
必 具 有 最 快 的 执行 速度 。 

如 何 确定 性 能 公式 中 这 些 因素 的 值 呢 ? 我 们 可 以 通过 运行 程序 来 测量 CPU 的 执行 时 间 ， 
并 且 计算 机 的 说 明 书 中 通常 介绍 了 时 钟 周期 长 度 。 难 以 测量 的 是 指令 数 和 CPI。 当 然 ， 如 果 
确定 了 时 钟 频率 和 CPU 执行 时 间 , 我 们 只 需要 知道 指令 数 或 者 CPI 两 者 之 一 ， 就 可 以 依据 性 
能 公式 计算 出 另 一 个 。 

可 以 使 用 体系 结构 仿真 器 等 软件 工具 ， 预 先 执行 程序 来 测量 出 指令 数 ， 也 可 以 用 大 多 
数 处 理 器 中 的 硬件 计数 器 来 测量 执行 的 指令 数 、 平 均 CPI 和 性 能 损失 源 等 。 由 于 指令 数量 
取决 于 计算 机 体系 结构 ， 并 不 依赖 于 计算 机 的 具体 实现 ， 因 而 我 们 可 以 在 不 知道 计算 机 全 部 
实现 细节 的 情况 下 对 指令 数 进行 测量 。 但 是 ，CPI 与 计算 机 的 各 种 设计 细节 密切 相关 ， 包 括 
存储 系统 和 处 理 器 结构 (我 们 将 在 第 4、5 章 中 看 到 )， 以 及 应 用 程序 中 不 同类 型 的 指令 所 占 
的 比例 。 因 此 ，CPI 对 于 不 同 应 用 程序 是 不 同 的 ， 对 于 相同 指令 系统 的 不 同 实现 方式 也 是 不 
同 的 。 

上 述 例子 表明 ， 只 用 一 种 因素 (如 指令 数 ) 去 评价 性 能 是 危险 指令 分 布 ， 在 一 个 或 多 个 
的 。 当 比较 两 台 计 算 机 时 必须 考虑 全 部 三 个 因素 ， 它 们 组 合 起 来 才 | 程序 中 ， 对 指令 的 动态 使 
能 确定 执行 时 间 。 如 果 某 个 因素 相同 (如 上 例 中 的 时 钟 频率 )， 则 | 用 频 度 的 评价 指标 。 
必须 考虑 不 同 的 因素 才能 确定 性 能 的 优 劣 。 因 为 CPI 根据 指令 分 布 
(instruction mix) 的 不 同 而 变化 ， 所 以 即使 时 钟 频率 是 相同 的 ， 也 必须 比较 指令 总 数 和 CPI。 
在 本 章 最 后 的 练习 题 中 ， 有 几 道 题目 要 求 评价 一 系列 计算 机 和 编译 器 的 改进 对 时 钟 频 率 、 
CPI 和 指令 数目 的 影响 。 在 1.10 节 ， 我 们 将 讨论 一 种 常见 的 性 能 评价 方式 ， 由 于 并 非 全 面 考 
虑 各 种 因素 ， 这 可 能 形成 误导 。 
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| 本 解 程序 性 能 程序 的 性 能 与 算法 、 编 程 语言 、 编 译 器 、 体 系 结构 以 及 实际 的 硬件 有 
关 。 下 表 概 括 了 这 些 组 成 部 分 是 如 何 影响 CPU 性 能 公式 中 的 各 种 因素 的 。 


指令 数 ，CPI 算法 决定 源 程序 执行 指令 的 数目 ， 从 而 也 决定 了 CPU 执行 指 


令 的 数目 。 算 法 也 可 能 通过 使 用 较 快 或 较 慢 的 指令 影响 CPl。 例 
指令 数 ，CPI 











如 ， 当 算法 使 用 更 多 的 除法 运算 时 ， 将 会 导致 CPI 增 大 


编程 语言 显然 会 影响 指令 数 ， 因 为 编程 语言 中 的 语句 必须 翻 
译 为 指令 ， 从 而 决定 了 指令 数 。 编 程 语言 也 可 影响 CPI， 例 如 ， 
Java 语 言 充 分 支持 数据 抽象 ， 因 此 将 进行 间接 调用 ， 需 要 使 用 
CPI 较 高 的 指令 


因为 编译 器 决定 了 源 程序 到 计算 机 指令 的 翻译 过 程 ， 所 以 编 
译 器 的 效率 既 影响 指令 数 又 影响 CPI。 编 译 器 的 角色 可 能 十 分 
复杂 ， 并 以 多 种 方式 影响 CPI 
引 令 系统 体系 结构 影响 CPU 性 能 的 所 有 三 个 方面 ， 因 为 它 影 


响 完成 某 功能 所 需 的 指令 数 、 每 条 指令 的 周期 数 以 及 处 理 器 的 
时 钟 频 率 




















编译 器 引 令 数 ，CPI 


引 令 系统 指令 数 ， 时 钟 频率 ， 
体系 结构 CPI 


| 吁 顷 曾 壕 | 也 许 你 期 望 CPI 最 小 值 为 1.0。 在 第 4 章 我 们 将 看 到 ， 有 些 处 理 器 在 每 个 时 
钟 周期 可 对 多 条 指令 取 指 并 执行 。 有 些 设计 者 用 IPC (Instruction Per Clock Cycle) 来 代替 
引 令 平均 执行 周期 数 CPI。 如 一 个 处 理 器 每 时 钟 周期 平均 可 执行 2 条 指令 ， 则 它 的 IPC=2， 
CPI=0.5。 

| 说 山 阔 述 虽然 时 钟 周期 长 度 传统 上 是 固定 的 ， 但 是 为 了 节省 能 量 或 暂时 提升 性 能 ， 当 
今 的 计算 机 可 以 使 用 不 同 的 时 钟 频率 ， 因 此 我 们 需要 对 程序 使 用 平均 时 钟 频率 。 例 如 ，Intel 
Core 7 处 理 器 在 过 热 之 前 可 以 暂时 将 时 钟 频率 提高 10%。Intel 称 之 为 快速 模式 (Turbo 
mode)。 

Et ee ep TT 王浆 

_ 自我 检测 革 ia 程序 在 桌面 处 理 器 上 运行 需要 15 秒 。 一 个 新 版 本 的 Java 编译 器 发 行 了 ， 其 

令 译 器 的 0.6 倍 ， 不 幸 的 是 ， CPI 增加 为 原来 的 1.1 倍 。 请 问 该 
从 以 下 三 个 选项 中 选 出 正确 答案 。 













1.7 功 耗 墙 


图 1-16 描述 了 30 年 来 Intel 八代 微 处 理 器 的 时 钟 频率 和 功率 的 增长 趋势 。 两 者 的 快速 增 
长 几乎 保持 了 几 十 年 ， 但 近 几 年 来 突然 缓和 下 来 。 二 者 增长 率 保持 同步 的 原因 在 于 它们 是 密 
切 相 关 的 ， 而 放 缓 的 原因 在 于 功率 已 经 达到 了 实际 极限 ， 无 法 再 将 普通 商用 处 理 器 冷却 下 来 。 

虽然 功率 决定 了 能 够 冷却 的 极限 ， 然 而 在 后 PC 时 代 ， 能 量 是 真正 关键 的 资源 。 对 于 个 
人 移动 设备 来 说 ， 电 池 寿 命 比 性 能 更 为 关键 。 对 于 具有 100 000 个 服务 器 的 仓储 式 计算 机 来 
说 ,冷却 费用 非常 高 ， 因 此 设计 者 要 尽量 降低 其 功率 和 冷却 所 带 来 的 成 本 。 在 评价 性 能 时 ， 
使 用 执行 时 间 比 使 用 MIPS ( 见 1.10 节 ) 之 类 的 比率 更 加 可 信 ， 与 此 类 似 ， 在 评价 功 耗 时 使 


矿 和 个 故 埠 雍 及 相关 其 大 29 





用 焦耳 这 样 的 能 量 单位 比 瓦 特 这 样 的 功率 单位 更 加 合理 ， 可 以 为 能 耗 采 用 焦耳 / 秒 这 样 的 评 
价 单位 。 
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图 1-16 30 年间 Intel x86 八代 微 处 理 器 的 时 钟 频率 和 功 耗 。 奔 腾 4 处 理 器 的 时 钟 频率 和 功 
耗 提 高 很 大 ， 但 是 性 能 提升 不 大 。Prescott 发 热 问题 导致 奔腾 4 处 理 器 的 生产 线 被 
放弃 。Core 2 生产 线 恢复 使 用 低 时 钟 频 率 的 简单 流水 线 和 片上 多 处 理 器 。Core i5 
采用 同样 的 流水 线 
当前 在 集成 电路 技术 中 占 统治 地 位 的 是 CMOS (互补 型 金属 氧化 半导体 )， 其 主要 的 能 
耗 来 源 是 动态 能 耗 ， 即 在 晶体 管 开 关 过 程 中 产生 的 能 耗 ， 即 晶体 管 的 状态 从 0 翻转 到 1 或 从 
1 翻转 到 0 消耗 的 能 量 。 动 态 能 耗 取 决 于 每 个 晶体 管 的 负载 电容 和 工作 电压 : 
能 耗 c 负载 电容 X 电压 ? 
这 个 等 式 表示 的 是 一 次 0 一 1 一 0 或 1 一 0 一 1 的 逻辑 转换 过 程 中 消耗 的 能 量 。 一 个 晶体 管 
消耗 的 能 量 为 : 
能 耗 c 1/2X 负载 电容 x 电压 ? 
每 个 晶体 管 需 要 的 功 耗 是 一 次 翻转 需要 的 能 耗 和 开关 频率 的 乘积 : 
功 耗 x 1/2X 负载 电容 xX 电压 ?xX 开关 频率 
开关 频率 是 时 钟 频 率 的 函数 ， 负 载 电 容 是 连接 到 输出 上 的 晶体 管 数量 〈 称 为 扇 出 ) 和 工艺 的 
函数 ， 该 函数 决定 了 导线 和 晶体管 的 电容 。 
思考 一 下 图 1-16 的 趋势 ， 为 什么 时 钟 频率 增长 为 1000 倍 ， 而 功 耗 只 增长 了 30 售 呢 ? 
因为 功率 是 电压 平方 的 函数 ， 功 率 和 能 耗 能 够 通过 降低 电压 来 大 幅 减 少 ， 每 次 工艺 更 新 换代 
时 都 会 这 样 做 。 一 般 来 说 ， 每 次 技术 更 新 换代 可 以 使 得 电压 降低 大 约 15%。20 多 年 来 ， 电 
压 从 5V 降 到 了 1V。 这 就 是 功 耗 只 增长 30 倍 的 原因 。 


| 例题 | 相对 功 耗 
假设 我 们 需要 开发 一 种 新 处 理 器 ， 其 负载 电容 只 有 复杂 的 旧 处 理 器 的 83$%。 再 进一步 假 

设 其 电压 可 以 调节 ， 与 旧 处 理 器 相 比 电压 降低 了 15%， 进 而 导致 频率 也 降低 了 15%， 请 问 这 

对 动态 功 耗 有 何 影响 ? 

| 答案 | 





be 电 必 xn 07 芝 关 关 项 半 x8 
功 耗 电容 负载 x 电压 ?x 开关 频率 





于 是 功 耗 比 为 : 
0.85’=0.52 
因此 新 处 理 器 的 功 耗 大 约 为 旧 处 理 器 的 一 半 。 


目前 的 问题 是 如 果 电 压 继续 下 降 会 使 晶体 管 的 泄漏 电流 过 大 ， 就 像 水 龙头 不 能 被 完全 关 
闭 一 样 。 目 前 40% 的 功 耗 是 由 于 泄漏 电流 造成 的 ， 如 果 晶 体 管 的 泄漏 电流 进一步 增 大 ， 情 
况 将 会 变 得 难以 处 理 。 

为 了 解决 功 耗 问题 ， 设 计 者 已 尝试 连接 大 型 设备 以 改善 冷却 效果 ， 同 时 关闭 芯片 中 在 给 
定时 钟 周期 内 暂时 不 用 的 部 分 。 尽 管 有 很 多 更 加 昂贵 的 方式 来 冷却 芯片 ， 可 以 继续 将 芯片 的 
功 耗 提升 到 如 300W 的 水 平 ， 但 这 对 于 个 人 计算 机 甚至 服务 器 来 说 成 本 太 高 了 ， 个 人 移动 设 
备 就 更 不 用 说 了 。 

由 于 计算 机 设计 者 遇 到 了 功 耗 墙 问题 ， 因 此 他 们 需要 开辟 新 的 路 径 ， 选 择 不 同 于 30 年 
来 设计 微 处 理 器 的 方式 。 

| 吁 顷 羡 通 | 虽然 动态 能 耗 是 CMOS 能 耗 的 主要 来 源 ， 但 静态 能 耗 也 是 存在 的 ， 因 为 即 
使 在 晶体 管 关闭 的 情况 下 ， 也 有 泄漏 电流 存在 。 在 服务 器 中 ， 典 型 的 电流 泄漏 占 40% 的 能 
耗 。 因 此 ， 只 要 增加 晶体 管 的 数目 ， 即 使 这 些 唱 体 管 总 是 关闭 的 ， 也 仍然 会 增加 漏电 能 耗 。 
人 们 采用 各 种 各 样 的 设计 和 工艺 创新 来 控制 电流 泄漏 ， 但 还 是 难以 进一步 降低 电压 。 

二 细 立志 功 耗 成 为 集成 电路 设计 的 挑战 有 两 个 原因 。 首 先 ， 电 源 必 须 由 外 部 输入 并 且 
分 布 到 芯片 的 各 个 角落 。 现 代 微 处 理 器 通常 使 用 几 百 个 引 脚 作为 电源 和 地 线 ! 同样 ， 多 层次 
芯片 互联 仅仅 为 了 解决 芯片 的 电源 和 地 的 分 布 比例 问题 。 其 次 ， 功 耗 作 为 热量 形式 散发 ， 因 
此 必须 进行 散热 处 理 。 服 务 器 芯片 的 功 耗 可 高 达 100W 以 上 ， 因 此 芯片 及 外 围 系统 的 散热 是 
仓储 规模 计算 机 的 主要 开销 ( 见 第 6 章 )。 


1.8 沧海 巨变 : 从 单 处 理 器 向 多 处 理 器 转变 


功 耗 的 极限 迫使 微 处 理 器 的 设计 产生 了 巨变 。 图 1-17 给 出 了 桌 “| 迄今 为 止 , 很 多 软件 很 像 
面 微 处 理 器 的 程序 响应 时 间 的 发 展 。 从 2002 年 起 ， 其 每 年 的 增长 速 ”| 独奏 者 所 写 的 音乐 ; 使 用 
率 从 1.5 下 降 到 1.2。 当 作 的 区 入 我 们 于 条 

二 写 二 重奏 、 四 重奏 以 及 小 

在 2006 年 ， 所 有 桌面 和 服务 器 公司 都 在 单个 微 处 理 器 芯片 中 加 | 吉 人 到 的 经验 不 多 为 大 
人 了 多 个 处 理 器 ， 以 求 更 大 的 吞吐 率 ， 而 不 再 继续 追求 降低 单个 程 | 型 交响 乐 或 者 合唱 谱 曲 则 
序 运行 在 单个 处 理 器 上 的 响应 时 间 。 为 了 减少 处 理 器 (processor) 和 | 是 一 种 不 同 的 拱 战 。 
微 处 理 器 〈microprocessor) 这 两 个 词语 之 间 的 混淆 ， 一 些 公司 将 处 i 
理 器 作为 “ 核 ”( core) 的 代称 ， 这 种 语 境 下 的 微 处 理 器 就 是 多 核 处 
理 器 了 。 因 此,“ 四 核 ” 微 处 理 器 是 一 个 包含 了 4 个 处 理 器 或 者 4 个 核 的 芯片 。 

在 过 去 ,程序 员 可 以 依赖 于 硬件 、 体 系 结构 和 编译 器 的 创新 ， 无 须 修改 一 行 代码 ， 就 能 
实现 程序 的 性 能 每 18 个 月 翻 一 番 。 而 今天 ， 程 序 员 要 想 显 著 改进 响应 时 间 ， 必 须 重 写 程序 
以 充分 利用 多 处 理 器 的 优势 。 而 且 ， 随 着 核 的 数目 不 断 加 倍 ， 程 序 员 也 必须 不 断 改进 代码 ， 
以 便 在 新 微 处 理 器 上 获得 显著 的 性 能 提升 。 

为 了 强调 软件 和 硬件 系统 的 协同 工作 ， 我 们 在 本 书 中 用 “硬件 / 软件 接口 ”的 概念 来 进 
行 描述 ， 介 绍 一 些 重要 的 观点 ， 下 面 是 本 书 中 的 第 一 个 。 

| 看 入 欢 笠 搂 加 | 国 称 性 对 计算 性 能 一 直 十 分 重要 ， 但 它 往往 是 隐蔽 的 。 第 4 章 将 说 明 匡 
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照 弘 ， 它 是 一 种 漂亮 的 技术 ， 通 过 指令 重 到 执行 使 程序 运行 得 更 快 。 这 是 指令 级 并 行 的 一 个 例 
子 。 在 抽取 了 硬件 的 并 行 本 质 之 后 ， 程 序 员 或 编译 器 可 认为 在 硬件 中 指令 是 串 行 执行 的 。 

迫使 程序 员 意 识 到 硬件 的 并 行 性 ， 并 显 式 地 按 并 行 方式 重 写 程 序 ， 曾 经 是 计算 机 体系 结 
构 的 “高 压 线 ”， 以 致 很 多 采用 此 种 方式 进行 革新 的 公司 都 失败 了 《〈 见 6.15 节 )。 从 这 个 历史 
We 度 来 观察 , 令 人 吃惊 的 是 ， 整 个 信息 技术 行业 已 经 认为 未 来 程序 员 将 成 功 切换 到 显 式 并 
行 编 程 上 。 


Intel Xeon 4 cores 3.6 GHz (Boost to 4.0) 
Intel Core i7 4 cores 3.4 GHz (boost to 3.8 GHz) 
Intel Xeon 6 cores, 3.3 GHz (poo to 3.6 GHz) 
Intel Wn 4 cores, 3.3 GHz (boost to 3.6 GHz) 


Professional Workstation XP1000, 667 MHz 21264 
WE Digital AlphaServer.8400.6/575, .575 MHz 21264. 


AlphaServer 4000 5/600, 600 MHz 21164 


Performance (vs. VAX-11/780) 


Digital 3000 AXP/500, 150M 
HP 9000/750, 66 MHz 


MIPS M2000, 25 MHz 8 
MIPS M/120, 16.7 MHz 





1978 3 1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014 
图 1-17 自 20 世 纪 80 年 代 中 期 以 来 处 理 器 性 能 的 发 展 。 本 图 描绘 了 和 VAX 11/780 相 比 ， 
采用 SPECint 评测 程序 得 到 的 性 能 数据 ( 见 1.10 节 )。 在 20 世纪 80 年 代 中 期 以 前 ， 
性 能 的 增长 主要 靠 技术 驱动 ， 平 均 每 年 增长 23%。 在 这 个 阶段 之 后 ， 增 长 速度 达 
到 52%， 这 归功 于 体系 结构 和 组 织 方式 的 创新 。 从 20 世纪 80 年 代 中 期 开始 ， 性 
能 每 年 大 约 提高 52%， 如 果 按 照 原先 的 25% 的 增长 率 计 算 ， 则 到 2002 年 的 性 能 只 
有 实际 的 117。 从 2002 年 开始 ， 受 到 功 耗 、 指 令 级 并 行程 度 和 存储 器 长 延迟 的 限 
制 ， 单 核 处 理 器 的 性 能 增长 放 缓 ， 大 约 每 年 22% 


为 什么 程序 员 编写 显 式 并 行程 序 如 此 困难 呢 ? 第 一 个 原因 是 并 行 编程 以 提高 性 能 为 目 
的 ， 这 必然 增加 编程 的 难度 。 不 仅 程序 必须 要 正确 ， 能 够 解决 重要 问题 ， 而 且 运 行 速度 要 
快 ， 还 需要 为 用 户 或 其 他 程序 提供 接口 以 便 使 用 。 如 果 不 关心 性 能 的 话 ， 编 写 一 个 串 行 程序 
就 足够 了 。 

第 二 个 原因 是 为 了 发 挥 并 行 硬 件 的 速度 ， 程 序 员 必 须 将 应 用 划分 为 每 个 核 上 有 大 致 相同 
数量 的 任务 ， 并 同时 完成 。 还 要 尽 可 能 减少 调度 的 开销 ， 不 浪费 并 行 性 能 。 

打 个 比方 ， 现 在 有 一 个 写 新 闻 故 事 的 任务 ， 如 果 由 八 名 记者 共同 来 完成 ， 能 和 否 提高 八 倍 
的 写作 速度 呢 ? 为 了 实现 这 一 目标 ， 这 个 新 闻 故 事 需 要 进行 划分 ， 让 每 个 记者 都 有 事 可 做 。 
假如 某 名 记者 分 到 的 任务 比 其 他 七 名 记者 加 起 来 的 任务 还 要 多 ， 那 用 八 名 记者 的 好 处 就 不 存 
在 了 。 因 此 ， 任 务 分 配 必须 平衡 才能 得 到 预期 的 加 速 。 另 一 个 存在 的 危险 是 记者 要 花费 时 间 
互相 交流 才能 完成 所 分 配 的 任务 。 如 果 故 事 的 一 部 分 (例如 结论 ) 在 所 有 其 他 部 分 完成 之 前 
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无 法 撰写 ， 则 缩短 故事 撰写 时 间 的 计划 将 会 失败 。 所 以 ,必须 尽量 减少 通信 和 同步 的 开销 。 
对 于 上 述 与 并 行 编程 的 类 比 来 说 ， 其 挑战 包括 调度 、 负 和 载 平衡 、 同 步 所 需 时 间 以 及 各 部 分 间 
通信 负载 等 问题 。 你 也 许 会 想到 ， 当 更 多 的 记者 来 写 一 个 故事 时 挑战 会 更 大 ， 类 似 的 ， 当 核 
的 数目 更 多 时 并 行 编程 的 挑战 也 将 更 大 。 
为 了 反映 业界 的 这 个 沧海 巨变 ， 后 面 的 五 章 中 每 章 都 会 至 少 有 一 节 介 绍 有 关 并 行 的 内 容 : 
e 第 2 章 ，2.11 节 。 通 常 独立 的 并 行 任务 需要 一 次 次 地 协调 ,通报 它们 何 时 完成 了 所 分 
配 的 任务 。 这 一 章 将 解释 多 核 处 理 器 任务 同步 时 所 使 用 的 指令 。 
第 3 章 ，3.6 节 。 获 取 并 行 性 的 最 简单 方式 是 ， 将 计算 单元 并 行 工作 ， 例 如 两 个 向 量 
相 乘 。 历 色 定 律 提供 了 位 宽 更 大 且 能 同时 处 理 多 个 操作 数 的 算术 单元 ， 子 字 并 行 就 
利用 了 这 种 资源 的 并 行 性 。 
e 第 4 章 ，4.10 节 。 鉴 于 显 式 并 行 编程 十 分 困难 ,在 20 世纪 90 年 代 人 们 付出 了 巨大 的 
努力 ， 从 最 初 的 流水 线 开 始 ， 让 硬件 和 编译 器 可 以 发 现 隐 含 的 咖 答 性 。 这 一 章 介绍 
了 一 些 激进 的 技术 ,包括 同时 进行 多 指令 的 取 指 和 执行 ， 预 测 决策 结果 以 及 基于 蜂 
测 的 推测 式 执行 机 制 等 。 
e 第 5 章 ，5.10 节 。 降 低 通信 开销 的 一 个 方法 是 让 所 有 处 理 器 使 用 统一 的 地 址 空间 ， 由 
此 使 得 任何 处 理 器 可 以 读 写 任何 数据 。 当 今 的 计算 机 都 采用 高 速 缓存 技术 ， 即 在 处 理 
器 附近 更 快 的 存储 器 中 保存 数据 的 一 个 临时 副本 。 可 以 想象 ， 如 果 多 个 处 理 器 的 高 速 
绥 存 中 的 共享 数据 不 一 致 ， 并 行 编程 将 尤为 困难 。 这 一 章 将 介绍 保持 所 有 高 速 缓存 数 
据 一 致 性 的 机 制 。 
e@ 第 5 章 ，5.11 节 。 这 一 节 介 绍 如 何 使 用 多 个 磁盘 共同 构成 一 个 能 够 提供 更 高 吞吐 率 
的 系统 ， 这 就 是 廉价 宛 余 磁盘 阵列 (了 RAID) 的 灵感 。RAID 流行 的 真正 原因 是 它 能 够 
通过 采用 适当 数量 的 宛 余 磁盘 提供 更 高 的 可 靠 性 。 这 一 节 将 介绍 不 同 RAID 级 别 的 性 
能 、 成 本 和 可 靠 性 。 
除了 这 些 章节 之 外 ， 还 有 一 整 章 来 介绍 并 行 处 理 。 第 6 章 详细 令 述 了 并 行 编程 的 挑战 ， 
提出 了 两 种 方法 来 解决 : 共享 内 存 通信 和 显 式 消 息 传输 ， 介 绍 了 一 种 易于 编程 的 并 行 性 模型 ， 
讨论 了 使 用 基准 评测 程序 对 并 行 处 理 器 进行 评测 的 困难 ， 为 多 核 微 处 理 器 引入 了 一 个 新 的 简 
单 性 能 模型 ， 最 后 基于 该 模型 对 四 种 多 核 处 理 器 进行 了 描述 和 评价 。 
如 上 所 述 , 第 3 一 6 章 使 用 矩阵 向 量 相 乘 作为 利用 并 行 提 高 性 能 的 例子 。 
附录 BB 介绍 了 一 种 在 桌面 计算 机 中 越 来 越 普及 的 硬件 部 件 : 图 | ，。 ws_ 训 
形 处 理 单 元 ( Graphics Processing Unit，GPU)。 它 是 为 加 速 图 像 处 算 机 ” Rs 汪 
理 而 发 明 的 。 得 益 于 高 度 的 并 行 性 ，GPU 表现 出 了 优越 的 性 能 ， 并 ”| 应 用 的 概念 。 但 我 没有 想 
已 发 展 为 完善 的 编程 平台 。 到 它 会 发 展 得 如 此 迅速 ， 
2 因为 我 完全 没有 预料 到 
附录 B 介绍 了 NVIDIA GPU 及 其 并 行 编程 环境 的 重要 部 分 。 | 为 区 和 全 宝生 
们 最 终 得 到 的 如 此 多 的 部 


1.9 实例 : 评测 Intel Core i7 人 
?A nrfmly 4 Ay x 今 -后 我 介 乎 我 们 的 预料 ， 它 比 我 们 
本 书 的 每 一 章 都 有 “实例 节 ， 它 将 本 书 中 的 概念 与 我 们 日 es 


常 使 用 的 计算 机 联系 起 来 ， 这 些小 节 涵 盖 了 现代 计算 机 中 使 用 的 技 / Presper Betert, ENIAC 
术 。 下 面 是 本 书 中 的 第 一 个 “实例 ”小 节 ， 我 们 将 以 Intel Core i7 为 ”| 约会 作 笑 盟 考 ，/199/ 
例 ， 说明 如 何 制造 集成 电路 ， 以 及 如 何 测 量 性 能 和 功 耗 。 
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1.9.1 SPEC CPU 基准 评测 程序 


用 户 日 复 一 日 使 用 的 程序 是 用 于 评价 新 型 计算 机 最 完美 的 程 | 工作 负载 : 运行 在 计算 机 
序 。 所 运行 的 一 组 程序 集 构 成 了 工作 负载 ( workload)。 要 评价 两 | 上 的 一 组 程序 ， 可 以 直接 
台 计 算 机 系统 ， 只 需 简单 地 比较 工作 负载 在 两 台 计 算 机 上 的 执行 时 Cs 
间 。 然 而 大 多 数 用 户 并 不 这 样 做 ， 他 们 通过 其 他 方法 测量 计算 机 | 中 构建 ， 一 个 典型 的 工作 
的 性 能 ， 和 希望 这 些 方法 能 够 反映 计算 机 执行 用 户 工作 负载 的 情况 。 | 负载 必须 指明 程序 和 相应 
最 常用 的 测量 方法 是 使 用 一 组 专门 用 于 测量 性 能 的 基准 评测 程序 | 的 频率 。 
(benchmark)。 这 些 评测 程序 形成 负载 ， 用 户 期 望 预测 实际 负载 的 性 
能 。 我 们 在 前 面 提 到 ， 要 项 遂 铬 顺和 圭 件 的 执行 ， 必 须 先 准确 地 知 | 基准 评测 程序 ， 送 选 出 来 用 
道 哪些 是 经 常 性 事件 ， 因 此 基准 评测 程序 在 计算 机 体系 结构 中 具有 | 于 比较 计算 机 性 能 的 程序 。 
非常 重要 的 作用 。 

SPEC ( System Performance Evaluation Cooperative) 是 由 许多 计算 机 销售 商 共 同 出 资 
赞助 并 支持 的 合作 组 织 ， 目 的 是 为 现代 计算 机 系统 建立 基准 评测 程序 集 。1989 年 ，SPEC 
建立 了 重点 面向 处 理 器 性 能 的 基准 程序 集 (现在 称 为 SPEC89 )。 历 经 5 代 发 展 ， 目 前 最 新 
的 是 SPEC CPU2006， 它 包括 12 个 整数 基准 程序 集 ( CINT2006 ) 和 17 个 浮 点 基准 程序 集 
( CFP2006 )。CINT2006 包括 C 编译 器 、 量 子 计 算 机 仿真 、 下 象棋 程序 等 ，CFP2006 包括 有 
限 元 模型 结构 化 网 格 法 、 分 子 动力 学 质点 法 、 流 体 动力 学 稀 玻 线性 代数 法 等 。 

图 1-18 列举 了 SPEC 整数 基准 程序 及 其 在 Intel Core i7 上 的 执行 时 间 、 指 令 数 、CPI 和 
时 钟 周 期 长 度 等 组 成 的 SPEC 分 值 。 注 意 ，CPI 的 最 大 值 和 最 小 值 相 差 达 到 5 倍 。 


cpl | 时 钟 周期 长 度 | 执行 时 间 | 参考 时 间 | SPEC 
(x105 秒 ) | ( 秒 ) | ( 秒 ) | 分 值 
8 



















| 


nme | 2616 |060| 0376 | 560 | 9330 | 158] 
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图 1-18 SPECINTC2006 基准 程序 在 频率 为 2.66GHz 的 Intel Core i7 920 上 的 运行 结果 。 按 
照 经 典 的 CPU 性 能 公式 ， 执 行 时 间 是 本 表 中 三 个 因素 的 乘积 : 以 亿 为 单位 的 指令 
数 、 每 条 指令 的 时 钟 数 ( CPI) 以 及 纳 秒 级 的 时 钟 周 期 长 度 。SPEC 分 值 由 SPEC 提 
供 ， 基 于 参考 时 间 除 以 所 测量 的 执行 时 间 而 得 到 。SPECINT2006 所 引用 的 分 值 是 
所 有 SPEC 分 值 的 几何 平均 值 


为 了 简化 评测 结果 ，SPEC 决定 使 用 单一 的 数字 来 归纳 所 有 12 种 整数 基准 程序 。 具 体 方 
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法 是 将 被 测 计算 机 的 执行 时 间 标 准 化 ， 即 将 参考 处 理 器 的 执行 时 间 除 以 被 测 计算 机 的 执行 时 
间 ， 这 样 的 归 一 化 结果 产生 了 一 个 测量 值 ， 称 为 SPEC 分 值 。SPEC 分 值 越 大 ， 表 示 性 能 越 
好 (因为 SPEC 分 值 和 被 测 计算 机 的 执行 时 间 成 反比 )。CINT2006 或 CFP2006 的 综合 评测 结 
果 是 取 SPEC 分 值 的 几何 平均 值 。 

| 详细 阐述 | 在 使 用 SPEC 分 值 比较 两 台 计 算 机 时 采用 的 是 几何 平均 值 ， 这 样 可 以 使 得 无 
论 采 用 哪 台 计算 机 进行 标准 化 都 可 得 到 同样 的 相对 值 。 如 果 采 用 的 是 算术 平均 值 ， 结 果 会 随 
选用 的 参照 计算 机 而 变 。 

几何 平均 值 的 公式 是 





T 执 行 时 间 比 ， 


其 中 ,执行 时 间 比 ;是 总 计 刀 个 工作 负载 中 第 i 个 程序 的 执行 时 间 按 参考 计算 机 进行 标准 化 
的 结果 ， 并 且 


n 
[ae 表示 wxwx…xa， 
i=] 


1.9.2 SPEC 功 耗 基准 评测 程序 


由 于 能 耗 和 功 耗 日 益 重 要 ，SPEC 增加 了 一 组 用 于 评估 功 耗 的 基准 评测 程序 ， 它 可 以 报 
告 一 段 时 间 内 服务 器 在 不 同 负载 水 平 下 〈 以 10% 的 比例 递增 ) 的 功 耗 。 与 前 面 类 似 ， 图 1-19 
给 出 了 在 基于 Intel Nehalem 处 理 器 的 服务 器 上 的 评测 结果 。 


目标 负载 (%) 性 能 { ssj_ops 】) 平均 功 耗 {W ) 














242 

185 
146 
135 
121 
SE RE 
WE | 0 


图 1-19 SPECpower_ssj2008 在 服务 器 上 的 运行 结果 。 服 务 器 的 具体 配置 为 双 插 槽 2.6GHz 
Intel Xeon X5650 处 理 器 ， 配 备 16GB DRAM 及 100GB 固态 硬盘 





SPECpower 最 早 来 自 面向 Java 商业 应 用 的 SPEC 基准 程序 ( SPECJBB2005 )， 它 主要 评 
测 处 理 器 、 高 速 缓存 、 主 存 以 及 Java 虚拟 机 、 编 译 器 、 垃 圾 回收 器 、 操 作 系 统 等 。 性 能 采 
用 吞吐 率 来 测量 ， 单 位 是 每 秒 完成 的 任务 数量 。 同 样 ， 为 了 简化 结果 ，SPEC 采用 单个 的 数 
字 来 对 评测 结果 进行 归纳 ， 称 为 每 瓦 执行 的 服务 器 端 Java 操作 数量 (overallssj _opsper watt )， 
该 单一 化 评测 指标 的 计算 公式 是 : 
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10 
> ss]_ops, 
一 起 性 
overall Ssj ops per watt = 二 0 


> power, 
式 中 ，ssj_ops; 为 工作 负载 在 每 10% 增 量 处 的 性 能 ，power; 是 对 应 的 功 耗 。 


1.10” 廖 误 与 陷阱 

本 书 中 每 一 章 都 会 有 “ 雇 误 与 陷阱 ”一 节 ， 其 目的 是 说 明 我 们 “| 科学 一 定 开始 于 神话 和 对 
在 实际 中 经 常 遇 到 的 误解 ， 我 们 称 之 为 廖 误 。 当 讨论 谬误 时 ， 我 们 | 神话 的 批判。 
会 举 出 一 个 反例 。 我 们 也 讨论 陷阱， 即 那些 容易 犯 的 错误 。 陷 阱 通 | 人 2， 
常 是 指 仅 在 有 限 的 上 下 文中 才 正 确 的 一 般 原 理 。 本 节 旨 在 帮助 你 在 
设计 或 使 用 计算 机 时 避免 犯 同样 的 错误 。 价 格 / 性 能 雇 误 和 陷阱 曾 使 包括 我 们 在 内 的 许多 计 
算 机 架构 师 掉 入 圈套 。 因 此 ， 本 书 在 这 方面 绝 不 缺少 相关 案例 。 下 面 介绍 本 书 的 第 一 个 陷 
阱 ， 虽 然 它 曾 迷惑 了 许多 设计 者 ， 却 揭示 了 计算 机 设计 中 的 一 个 重要 关系 。 

陷阱 : 在 改进 计算 机 的 某 个 方面 时 期 望 总 性 能 的 提高 与 改进 大 小 成 正比 。 

而 于 权 锋 竹村 件 的 伟大 思想 所 导致 的 令 人 泄气 的 结果 困扰 着 软件 和 硬件 设计 人 员 。 它 提 
醒 我 们 一 个 事件 所 需要 的 时 间 影 响 着 改进 它 的 机 会 。 

用 一 个 简单 的 设计 问题 就 可 以 很 好 地 对 其 进行 说 明 。 假 设 一 个 程序 在 一 台 计算 机 上 运行 
需要 100 秒 ， 其 中 80 秒 的 时 间 用 于 乘法 操作 。 如 果 要 把 该 程序 的 运行 速度 提高 5 倍 ， 乘 法 
操作 的 速度 应 该 改进 多 少 ? 


改进 后 的 程序 执行 时 间 可 用 下 面 的 Amdahl 定律 计算 : AR 于 机; 而 过 天 

Rt 于 特定 改进 的 性 能 提升 可 

改进 后 的 执行 时 间 = 要 性 这 影响 的 执行 四 辣 + 不 受 影响 的 执行 时 间 | 能 由 所 使 用 的 改进 特征 人 

改进 量 数量 所 限制 ”的 规则 。 它 

代入 本 例 的 数据 进行 计算 : 二 “二” 
化 版 本 。 


改进 后 的 执行 时 间 = 一 +(100 一 80) 
由 于 要 求 快 5 倍 ， 新 的 执行 时 间 应 该 是 20， 则 有 : 


0= 二 
n 


也 就 是 说 ， 如 果 乘 法 运算 占 总 负载 的 80%， 则 无 论 怎 样 改进 乘法 ,也 无 法 达到 性 能 提高 5 倍 
的 结果 。 针 对 特定 情况 的 性 能 提升 ， 受 到 被 改进 的 特征 所 占 比例 的 限制 。 这 个 概念 在 日 常生 
活 中 被 称 为 边际 收益 递减 定律 。 

当 我 们 知道 一 些 功能 所 消耗 的 时 间 及 其 可 能 的 加 速 比 时 ， 就 可 以 使 用 Amdahl 定律 对 性 
能 提升 进行 预 估 。 将 Amdahl 定律 与 CPU 性 能 公式 结合 ， 是 一 种 很 方便 的 对 性 能 改进 进行 评 
估 的 工具 。 在 本 章 练习 中 有 关于 Amdahl 定律 的 更 详细 讨论 。 

Amdahl 定律 还 被 应 用 于 讨论 并 行 处 理 器 数量 的 实际 限制 ， 我 们 将 在 第 6 章 的 “ 廖 误 与 
陷阱 ”一 节 中 对 其 进行 研究 。 
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廖 误 : 低 利 用 率 的 计算 机 具有 更 低 功 耗 。 

由 于 服务 器 的 工作 负载 是 变化 的 ， 所 以 低 利 用 率 情况 下 的 功率 很 重要 。 例 如 ， 谷 歌 的 
仓储 式 计 算 机 中 服务 器 利用 率 在 大 多 数 情况 下 位 于 10% 一 50% 之 间 ， 只 有 不 到 1% 的 时 
间 达 到 100% 的 利用 率 。 即 使 花费 5 年 时 间 来 研究 如 何 很 好 地 运行 SPECpower 基准 评测 程 
序 ,， 在 2012 年 ， 根 据 最 优 结果 进行 配置 的 计算 机 中 ，10% 的 工作 负载 情况 下 也 会 使 用 33% 
的 峰值 功 耗 。 实 际 工作 中 的 系统 由 于 没有 针对 SPECpower 进行 配置 ， 其 结果 肯定 会 更 加 
糟糕 。 

由 于 服务 器 的 工作 负载 差异 大 且 消 耗 了 很 大 比例 峰值 功 耗 ，Luiz Barroso 和 Urs 
Holzle[2007] 提出 需要 对 硬件 重新 进行 设计 以 达到 “ 按 能 量 比例 计算 ”。 这 就 是 说 ， 如 果 未 
来 的 服务 器 中 在 10% 的 工作 负载 时 仅 使 用 10% 的 峰值 功 耗 ， 将 减少 数据 中 心 的 电费 ， 并 在 
环保 时 代 做 出 重要 的 节能 减 排 贡献 。 

廖 误 : 面向 性 能 的 设计 和 面向 能 效 的 设计 具有 不 相关 的 目标 。 

由 于 能 耗 是 功率 和 时 间 的 乘积 ， 在 通常 情况 下 ， 对 于 软 硬 件 的 性 能 优化 而 言 ， 即 使 优化 
需要 更 多 的 能 耗 ， 但 是 这 些 优 化 缩短 了 系统 运行 时 间 ， 因 此 整体 上 也 还 是 节约 了 能 量 。 一 个 
重要 的 原因 在 于 ， 只 要 程序 运行 ， 计 算 机 的 其 他 部 分 就 会 消耗 能 量 。 因 此 ， 即 使 优化 的 部 分 
多 消耗 了 一 些 能 量 ， 运 行 时 间 缩 短 也 可 以 降低 整个 系统 的 能 耗 。 

陷阱 : 用 性 能 公式 的 一 个 子 集 去 度量 性 能 。 

我 们 之 前 就 指出 过 只 用 时 钟 频率 、 指 令 数 和 CPI 之 一 来 预测 性 能 的 危险 。 而 另 一 种 常 犯 
的 错误 是 只 用 三 种 因素 之 二 去 比较 性 能 。 虽 然 这 样 做 在 有 些 限 定 场景 下 可 能 正确 ， 但 这 种 方 
法 仍然 容易 被 误 用 。 实 际 上 ， 几 乎 所 有 取代 时 间 以 度量 性 能 的 方法 都 会 导致 误导 性 的 声明 、 
扭曲 的 结果 或 错误 的 解释 。 

有 一 种 取代 时 间 以 度量 性 能 的 尺度 是 每 秒 百 万 条 指令 数 ， 即 | MIPS ， 基于 百 万 条 指令 


MIPS。 对 于 一 个 给 定 的 程序 ，MIPS 可 简单 表示 为 : 的 程序 执行 速度 的 一 种 度 
pp 量 。 指 令 条 数 除 以 执行 
MIPS- 指令 数 时 间 与 106 之 积 就 得 到 了 

执行 时 间 x10s MIPS, 


MIPS 是 指令 执行 的 速率 ， 它 规定 了 性 能 与 执行 时 间 成 反比 ， 越 快 
的 计算 机 具有 越 高 的 MIPS 值 。MIPS 的 优点 是 既 容 易 理 解 ， 又 符合 人 的 直觉 ， 机 器 越 快 则 
MIPS 值 越 高 。 

但 实际 上 使 用 MIPS 作为 度量 性 能 的 指标 存在 三 个 问题 。 首 先 ，MIPS 规定 了 指令 执行 
的 速率 ,但 没有 考虑 指令 的 能 力 。 我 们 没有 办 法 用 MIPS 比较 不 同 指令 系统 的 计算 机 ， 因 
为 指令 数 肯 定 是 不 同 的 。 其 次 ， 在 同一 计算 机 上 ， 不同 的 程序 会 有 不 同 的 MIPS， 因 而 一 台 
计算 机 不 能 拥有 单一 的 MIPS 分 值 。 例 如 ， 将 执行 时 间 用 MIPS、CPI、 时 钟 频率 代入 之 后 
可 得 : 

指令 数 _ 时钟 频率 
指令 数 xCPI 证 CPIx10° 

”时钟 频率 

回顾 一 下 ， 图 1-18 显示 了 SPEC CPU 2006 在 Intel Core i7 上 的 CPI 最 大 值 和 最 小 值 是 
相差 5 倍 的 ， 这 导致 相应 的 MIPS 也 是 如 此 。 最 后 一 点 也 是 最 重要 的 一 点 ， 如 果 一 个 新 程序 
执行 的 指令 数 更 多 ,但 每 条 指令 的 执行 速度 更 快 ， 则 MIPS 可 能 独立 于 性 能 而 发 生变 化 ! 


MIPS= 
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一 
自我 检测 “考虑 某 程序 在 两 台 计 算 机 上 的 性 能 测量 结果 ， 如 下 表 : 
人 人 i i 





a. 哪 台 计算 机 的 MIPS 值 更 高 ? 
b. 哪 台 计 算 机 更 快 


1.11 本 章 小 结 


虽然 很 难 准确 预测 计算 机 的 成 本 与 性 能 在 未 来 将 发 展 到 怎样 的 “|( 哪 里.….) ENIAC 配 备 
水 平 ， 但 可 以 确定 的 是 一 定 会 比 现在 的 计算 机 好 得 多 。 为 了 能 够 跟 | 有 18 000 个 真空 管 ， 重 达 
随 这 样 的 进步 ， 计 算 机 设计 人 员 和 程序 员 必须 理解 更 广泛 的 问题 。 。 | 办 号 ， 本 坟 的 、 各 可 人 

硬件 和 软件 设计 者 都 采用 分 层 的 方法 构建 计算 机 系统 ， 每 个 下 | 共生 0 个 雪 空 全 
层 都 对 其 上 层 隐藏 本 层 的 细节 。 釉 莹 思想 是 理解 当今 计算 机 系统 的 。 | 太 & 抽 大 ,J949 芋 3 
基础 ， 但 这 并 不 意味 着 设计 者 只 要 懂得 抽象 原理 就 足够 了 。 也 许 最 
重要 的 抽象 层次 是 硬件 和 底层 软件 之 间 的 接口 ， 称 为 指令 系统 体系 结构 。 保 持 指令 系统 体系 
结构 恒定 ， 使 得 基于 该 指令 系统 体系 结构 的 不 同 实现 (可 能 在 成 本 和 性 能 上 有 所 不 同 ) 能 够 
运行 相同 的 软件 。 这 种 方法 的 一 个 可 能 不 足 是 ， 会 阻止 某 些 需要 修改 该 接口 的 创新 。 

有 一 个 可 靠 的 测量 并 报告 性 能 的 方法 ， 即 用 真实 程序 的 执行 时 间作 为 尺度 。 该 执行 时 间 
与 我 们 能 够 通过 下 面 公式 测量 到 的 其 他 重要 指标 相关 : 

秒 数 _ 指令 数 、 时 钟 周期 数 。 秒 数 
程序 ”程序 。 指令 数 。 时钟 周 期 数 

在 本 书 中 我 们 将 多 次 使 用 这 一 公式 及 其 组 成 因子 。 但 请 记 住 ， 任 何 一 个 独立 的 因子 都 不 
能 决定 性 能 ， 只 有 三 个 因子 的 乘积 ， 即 执行 时 间 才 是 可 靠 的 性 能 度量 标准 。 

| 瑟 对 | 执行 时 间 是 唯一 有 效 且 不 可 推翻 的 性 能 度量 指标 。 人 们 曾经 提出 许多 其 他 度量 指 
标 ， 但 均 存在 不 足 之 处 。 有 些 从 一 开始 就 没有 反映 执行 时 间 ， 因 而 是 无 效 的 ; 还 有 一 些 只 能 
在 有 限 条 件 下 正确 ， 超 出 了 限制 条 件 则 失效 ， 或 是 没有 清晰 地 说 明 有 效 性 的 限制 条 件 。 

现代 处 理 器 的 关键 硬件 技术 是 硅 。 与 理解 集成 电路 技术 同样 重要 的 是 理解 如 功 深 定 
律 所 预测 的 技术 进步 速度 。 硅 技术 加 快 了 硬件 的 进步 ， 与 此 同时 ， 计 算 机 组 织 中 的 新 思想 也 
改进 了 计算 机 的 性 价 比 。 这 其 中 有 两 个 重要 的 新 思想 : 第 一 ， 开 发 程序 中 的 并 行 性 ， 当 前 的 
典型 方法 是 借助 多 处 理 器 ;第 二 ， 开 发 性 鳃 响 属 次 结构 的 访问 局 部 性 ， 当 前 的 典型 方法 是 使 
用 高 速 缓存 。 

能 效 已 经 取代 芯片 面积 成 为 微 处 理 器 设计 中 最 重要 的 资源 。 在 试图 改进 性 能 的 同时 节省 
功 耗 ， 这 样 的 需求 已 经 迫使 硬件 行业 转向 多 核 微 处 理 器 ， 从 而 要 求 软件 行业 转向 并 行 编程 。 
愤 簿 化 现在 是 提高 性 能 的 必要 途径 。 

计算 机 设计 总 是 以 价格 和 性 能 来 度量 的 ， 也 包括 其 他 一 些 重要 的 因素 ， 如 能 耗 、 可 靠 
性 、 成 本 及 可 扩展 性 等 。 尽 管 本 章 的 重点 在 于 价格 、 性 能 和 能 耗 ， 但 是 最 佳 的 设计 应 该 在 特 
定 的 应 用 领域 中 取得 所 有 因素 之 间 适 当 的 平衡 。 
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本 书 导读 


在 所 有 抽象 的 底部 是 计算 机 的 五 个 经 典 部 件 : 数据 通路 、 控 制 器 、 存 储 器 、 输 入 和 输出 
( 见 图 1-5 )。 这 五 个 部 件 也 是 本 书后 面 几 章 的 框架 : 
数据 通路 : 第 3、4、6 章 和 附录 B。 
控制 器 : 第 4、6 章 和 附录 B。 
存储 器 : 第 5 章 。 
输入 : 第 5 章 和 第 6 章 。 

e 输出: 第 5$ 章 和 第 6 章 。 

如 上 所 述 ， 第 4 章 介 绍 处 理 器 如 何 开发 隐 式 并 行 性 ， 第 6 章 介绍 并 行 变革 的 核心 一 一 显 
式 并 行 多 核 微 处 理 器 ， 附 录 B 介绍 高 度 并 行 的 图 形 处 理 器 芯片 。 第 5 章 介 绍 如 何 层次 化 挖掘 
存储 结构 的 访问 局 部 性 。 第 2 章 介 绍 指令 系统 一 一 编译 器 和 计算 机 之 间 的 接口 一 一 并 强调 了 
编译 器 和 编程 语言 在 利用 指令 系统 特性 方面 的 作用 。 附 录 A 提供 了 第 2 章 指 令 系 统 的 参考 数 
据 。 第 3 章 介 绍 计算 机 如 何 处 理 算术 运算 数据 。 附 录 A 对 逻辑 设计 进行 了 介绍 。 


1.12 历史 视角 和 拓展 阅读 


本 书 的 每 一 章 都 有 “历史 视角 和 拓展 阅读 ”一 节 ， 可 在 配套 网 “| 活跃 的 科学 领域 就 像 一 个 
站 上 找到 。 我 们 可 能 通过 一 个 系列 的 计算 机 来 追踪 菜 一 思想 的 发 展 | 巨大 的 蚁 诺 ， 人 们 消失 在 
历程， 或 者 描述 一 些 历史 上 的 重要 项 目 ， 如 果 读者 有 兴趣 进一步 探 tn mg es 
究 的 话 ， 我 们 还 提供 相关 参考 资料 。 i 

本 章 的 “历史 视角 ”为 一 些 关键 思想 提供 了 相关 历史 背景 知识 ， | ew 7zomar，( 细 胎生 全 
其 目的 是 向 读者 介绍 对 技术 进步 做 出 贡献 的 重要 历史 人 物 及 其 事迹 ， | 2 ”人 
并 将 其 成 就 置 于 当时 的 历史 背景 中 进行 思考 。 温 故 知 新 ， 读 者 也 许 
能 更 好 地 理解 那些 将 影响 未 来 计算 技术 的 力量 。 配 套 网 站 中 每 个 历史 视角 之 后 都 会 有 “拓展 
阅读 ”的 提示 ， 这 部 分 内 容 具 体 见 配套 网 站 中 的 “ Further Reading” 部 分 。1.12 节 的 剩余 部 
分 可 在 配套 网 站 上 在 线 查找 。 


1.13 练习 


完成 练习 所 需 的 相对 时 间 标 示 在 题 号 之 后 的 方 括号 中 。 平 均 来 说 ， 在 标 级 [ 10 ] 的 习题 上 所 用 
的 时 间 会 是 标 级 [5 ] 的 习题 的 2 倍 。 做 题 前 应 先 阅读 的 课本 章节 则 标示 在 尖 括 号 中 。 例 如 ， 
<1.4> 表示 应 该 阅读 1.4 节 以 帮助 你 完成 该 习题 。 

1.1 [2]<1.1> 除 了 拥有 数 十 亿 用 户 的 智能 手机 之 外 ， 请 再 列举 和 描述 四 种 类 型 的 计算 机 。 

1.2 [5] <1.2> 计 算 机 体系 结构 中 的 八 个 伟大 思想 与 其 他 领域 的 思想 相似 。 请 将 计算 机 体系 结构 中 
的 八 个 伟大 思想 一 一 “面向 摩尔 定律 的 设计 ”“ 使 用 抽象 简化 设计 ”“ 加 速 经 常 性 事件 ”“ 通 过 
并 行 提高 性 能 “通过 流水 线 提高 性 能 “通过 预测 提高 性 能 “存储 器 层次 ”“ 通 过 元 余 提高 可 
靠 性 ”与 其 他 领域 的 下 列 思想 进行 匹配 : 
a. 汽车 制造 中 的 组 装 生产 线 。 
b. 吊桥 线索 。 
c. 采用 风向 信息 的 飞机 和 船舶 导航 系统 。 
d. 高 楼 中 的 高 速 电梯 。 


1.3 


1.4 


Ss 


1.6 


1.7 


1.8 


1.8.1 
1.8.2 
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e. 图 书馆 的 存 阅 处 。 

f 通过 增 大 CMOS 晶体 管 的 栅 极 面积 来 减少 翻转 时 间 。 

g. 增加 电磁 飞机 弹射 器 (不同 于 当前 的 蒸汽 驱动 模型 ， 它 采用 电 驱 动 )， 这 可 以 通过 新 型 反应 
堆 技术 增加 的 电能 来 实现 。 

h. 制造 自动 驾驶 汽车 ， 其 控制 系统 是 安装 在 汽车 上 的 传感器 系统 ， 例 如 车 道 偏 离 检测 系统 和 
智能 导航 控制 系统 。 

[2 ] <1.3 > 请 描述 高 级 语言 (例如 C) 编写 的 程序 转化 为 能 够 直接 在 计算 机 处 理 器 上 执行 的 表 

示 的 具体 步骤 。 

[2 ] < 1.4> 一 个 彩色 显示 器 中 的 每 个 像素 由 三 种 基色 ( 红 、 绿 、 蓝 ) 构成 ， 每 种 基色 用 8 位 表 

示 ， 帧 大 小 为 1280 x 1024。 

a. 为 了 保存 一 帧 图 像 最 少 需 要 多 大 的 帧 缓冲 (以 字 节 计算 ) ? 

b. 在 100Mbps 的 网 络 上 传输 一 帧 图 像 最 少 需要 多 长 时 间 ? 

[4] <1.6> 有 3 种 不 同 的 处 理 器 Pl1、P2 和 了 3 执行 同样 的 指令 系统 。P1 的 时 钟 频率 为 3GHz， 

CPI 为 1.5; P2 的 时 钟 频率 为 2.5GHz，CPI 为 1.0; P3 的 时 钟 频 率 为 4GHz，CPI 为 2.2。 

a. 以 每 秒 执行 的 指令 数 为 标准 ， 哪 个 处 理 器 性 能 最 高 ? 

b. 如 果 每 个 处 理 器 执行 一 个 程序 都 花费 10 秒 时 间 ， 求 它们 的 时 钟 周 期 数 和 指令 数 。 

c. 我 们 试图 把 执行 时 间 减 少 30%， 但 这 会 引起 CPI 增 大 20%。 请 问 为 达到 时 间 减 少 30% 的 目 
标 ， 时 钟 频率 应 达到 多 少 ? 

[ 20 ] < 1.6 > 同一 个 指令 系统 体系 结构 有 两 种 不 同 的 实现 方式 。 根 据 CPI 的 不 同 将 指令 分 成 四 

类 (A、B、C 和 D)。P1 的 时 钟 频 率 为 2.5GHz，CPI 分 别 为 1、2、3 和 3 ; P2 时 钟 频率 为 

3GHz，CPI 分 别 为 2、2、2 和 2。 

给 定 一 个 程序 ， 有 1.0 x 10 条 动态 指令 ， 按 如 下 比例 分 为 4 类 : A，10%; B，20%; C，50%; 

D，20%。 

a. 每 种 实现 方式 下 的 整体 CPI 是 多 少 ? 

b. 计算 两 种 情况 下 的 时 钟 周期 总 数 。 

[15 ] < 1.6 > 编译 器 对 应 用 程序 性 能 有 极 深 的 影响 。 假 定 对 于 一 个 程序 ， 如 果 采 用 编译 器 A， 则 

动态 指令 数 为 1.0 x 10”， 执 行 时 间 为 1.1s ; 如 果 采 用 编译 器 B， 则 动态 指令 数 为 1.2 x 10”， 执 

行 时 间 为 1.5s。 

a. 在 给 定 处 理 器 时 钟 周期 长 度 为 lns 时 ， 求 每 个 程序 的 平均 CPI。 

b. 假定 被 编译 的 程序 分 别 在 两 个 不 同 的 处 理 器 上 运行 。 如 果 这 两 个 处 理 器 的 执行 时 间 相 同 ， 
求 运行 编译 器 A 生成 之 代码 的 处 理 器 时 钟 比 运行 编译 器 B 生成 之 代码 的 处 理 器 时 钟 快 

c. 假设 开发 了 一 种 新 的 编译 器 ， 只 需 6.0 x 10 条 指令 ， 程 序 平均 CPI 为 1.1。 求 这 种 新 的 编 
译 器 在 原 处 理 器 环境 下 相对 于 原 编译 器 A 和 B 的 加 速 比 。 

2004 年 发 布 的 Pentium 4 Prescott 处 理 器 时 钟 频率 为 3.6GHz， 工 作 电压 为 1.25V。 假 定 平均 情况 

下 静态 功 耗 为 10W ， 动 态 功 耗 为 90W。 

2012 年 发 布 的 Core i5 Ivy Bridge 时 钟 频率 为 3.4GHz， 工 作 电压 为 0.9V。 假 定 平均 情况 下 天 

态 功 耗 为 30W ， 动 态 功 耗 为 40W。 

[5] <1.7> 分 别 求 出 每 个 处 理 器 的 平均 电容 负载 。 

[5 ] < 1.7 > 对 于 每 种 技术 ， 求 出 静态 功 耗 占 总 耗 散 功 耗 的 比例 和 静态 功 耗 相 对 于 动态 功 耗 的 

比率 。 


40 


1.8.3 


9 


= 


第 1 有 晶 





[15 ] < 1.7 > 如 果 要 将 整体 耗 散 功 耗 降低 10%， 请 计算 出 在 保持 漏电 流 不 变 的 情况 下 电压 要 降 
低 多 少 。 注 意 : 功率 定义 为 电压 与 电流 的 乘积 。 

在 某 处 理 器 中 ， 假 定 算术 指令 、load/store 指令 和 分 支 指令 的 CPI 分 别 是 1、12 和 5。 同 时 假定 
某 程序 在 单个 处 理 器 核 上 运行 时 需要 执行 2.56 x 10? 条 算术 指令 、1.28 x 10? 条 load/store 指令 
和 2.56x10 条 分 支 指令 ， 并 假定 处 理 器 的 时 钟 频率 为 2GHz。 

现 假定 程序 并 行 运行 在 多 核 上 ， 分 配 到 每 个 处 理 器 核 上 运行 的 算术 指令 和 load/store 指令 数目 
为 单 核 情况 下 相应 指令 数目 除 以 0.7xP (p 为 处 理 器 核 数 )， 而 每 个 处 理 器 的 分 支 指令 的 数量 
保持 不 变 。 

[5] <1.7> 求 出 当 该 程序 分 别 运 行 在 1、2、4 和 8 个 处 理 器 核 上 的 执行 时 间 ， 并 求 出 其 他 情况 
下 相对 于 单 核 处 理 器 的 加 速 比 。 

[ 10 ] < 1.6, 1.8 > 如 果 算 术 指令 的 CI 加倍， 对 分 别 运行 在 1、2、4 和 8 个 处 理 器 核 上 的 执行 时 
间 有 何 影响 ? 

[ 10 ] < 1.6, 1.8 > 如 果 要 使 单 核 处 理 器 的 性 能 与 四 核 处 理 器 相当 ， 单 处 理 器 中 load/store 指令 的 
CPI 应 该 降低 多 少 ? 此 处 假定 四 核 处 理 器 的 CPI 保持 原 数值 不 变 。 

假定 一 个 直径 15cm 的 晶 圆 的 成 本 是 12， 包 含 84 枚 晶片 ， 其 缺陷 参数 为 0.020 个 /cm 。 而 一 个 
直径 20cm 的 唱 圆 的 成 本 是 15， 包含 100 枚 晶片 ， 其 缺陷 参数 为 0.031 个 /cm”。 

[10 ] < 1.5 > 分 别 求 出 每 种 晶 圆 的 工艺 良 率 。 

[5] < 1.5> 分 别 求 出 每 种 晶片 的 价格 。 

[5 ] < 1.5 > 如 每 晶 圆 的 晶片 数 增加 10%， 每 单位 面积 的 缺陷 数 增加 15%， 求 晶片 面积 和 工艺 
良 率 。 

[5 ] <1.5> 假 设 随 着 电子 器 件 制造 技术 的 进步 ， 工 艺 良 率 从 0.92 上 升 到 0.95。 给 定 唱片 面积 ; 
200mm”， 求 每 一 种 技术 下 单位 面积 的 缺陷 数 。 

SPEC CPU2006 的 bzip2 基准 程序 在 AMD Barcelona 处 理 器 上 执行 的 总 指令 数 为 2.389 x 10， 
执行 时 间 为 750 秒 ， 该 程序 的 参考 执行 时 间 为 9650 秒 。 

[5 ] < 1.6,1.9 > 如 果 时 钟 周 期 长 度 为 0.333ns， 求 CPI 值 。 

[5] < 1.9> 求 该 程序 的 SPEC 分 值 。 

[5 ] < 1.6, 1.9 > 如 果 基 准 程序 的 指令 数 增加 10%，CPI 不 变 ， 则 CPU 时 间 增 加 多 少 ? 

[5 ] < 1.6, 1.9 > 如 果 基 准 程序 的 指令 数 增加 10%，CPI 增 加 5%， 则 CPU 时 间 增 加 多 少 ? 

[5 ] <1.6, 1.9 > 根据 上 题 中 指令 数 和 CPI 的 变化 ， 求 SPEC 分 值 的 变化 。 

[ 10 ] < 1.6 > 假设 正在 开发 一 款 新 的 AMD Barcelona 处 理 器 ， 其 工作 频率 为 4GHz， 在 其 指令 
系统 中 增加 了 一 些 新 的 指令 ， 从 而 使 程序 中 的 指令 数目 减少 了 15%， 程 序 的 执行 时 间 降 到 了 
700 秒 ， 新 的 SPEC 分 值 为 13.7， 求 新 的 CPI。 

[ 10 ] < 1.6 > 当时 钟 频率 由 3GHz 上 升 到 4GHz 时 ， 上 一 题 算出 的 CPI 比 1.11.1 的 高 。 请 确定 
CPI 的 升 高 是 否 与 频率 升 高 相同 。 如 果 不 同 ， 为 什么 ? 

[5 ] < 1.6 >CPU 时 间 减 少 了 多 少 ? 

[ 10 ] < 1.6> 对 第 二 个 基准 程序 libquantum， 假 定 执行 时 间 为 960ns, CPI 为 1.61， 时 钟 频率 为 
3GHz。 在 时 钟 频率 为 4GHz 时 ， 在 不 影响 CPI 的 前 提 下 执行 时 间 减 少 10%， 求 指令 总 数 。 
[10 ] < 1.6 > 在 指令 总 数 和 CPI 保持 不 变 的 前 提 下 ， 如 果 要 将 CPU 时 间 进 一 步 减少 10%， 求 
时 钟 频率 。 

[ 10 ] < 1.6 > 在 指令 总 数 保持 不 变 的 前 提 下 ， 如 果 要 将 CPI 降低 15%,CPU 时 间 减 少 20%， 求 
时 钟 频率 。 
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在 1.10 节 中 提 到 使 用 性 能 公式 的 子 集 来 作为 性 能 评价 指标 的 陷阱 。 下 面 的 习题 将 对 其 进行 说 
明 。 考 虑 下 面 两 种 处 理 器 。P1 的 时 钟 频率 为 4GHz， 平 均 CPI 为 0.9， 需 要 执行 5.0 x 10? 条 指 
令 ; P2 的 时 钟 频率 为 3GHz， 平 均 CPI 为 0.75， 需 要 执行 1.0 x 10? 条 指令 。 

[5] < 1.6, 1.10> 一 个 常见 的 错误 是 ， 认 为 时 钟 频率 最 高 的 计算 机 具有 最 高 的 性 能 。 这 种 说 法 正 
确 吗 ? 请 用 Pl 和 了 2 来 验证 这 一 说 法 是 否 正确 。 

[10] < 1.6, 1.10 > 另 一 个 错误 是 ， 认 为 执行 指令 最 多 的 处 理 顺 需要 更 多 的 CPU 时 间 。 考 虑 P1 
执行 1.0x10? 条 指令 序列 所 需 的 时 间 ， 假 定 P1 和 了 P2 的 CPI 不 变 , 计算 一 下 P2 用 同样 的 时 
间 可 以 执行 多 少 条 指令 。 

[10] < 1.6, 1.10 > 一 个 常见 的 错误 是 用 MIPS (每 秒 百 万 条 指令 数 ) 来 比较 两 台 不 同 的 处 理 器 的 
性 能 ， 并 认为 MIPS 数值 大 的 处 理 器 具有 最 高 的 性 能 。 这 种 说 法 正确 吗 ? 请 用 P1 和 了 2 验证 
这 一 说 法 是 否 正确 。 

[10] <1.10> 另 一 个 常见 的 性 能 标志 是 MFLOPS (每 秒 百 万 条 浮 点 指令 )， 其 定义 为 

浮 点 操作 的 数目 

执行 时 间 x10? 

但 此 指标 与 MIPS 有 同样 的 问题 。 假 定 Pl 和 P2 上 执行 的 指令 有 40% 的 浮 点 指令 ， 求 出 各 处 
理 器 的 MFLOPS 数值 。 

在 1.10 节 中 提 到 的 另 一 个 易 犯 的 错误 是 希望 通过 只 改进 计算 机 的 一 个 方面 来 改进 计算 机 的 总 体 
性 能 。 假 如 一 台 计 算 机 上 运行 一 个 程序 需要 250 秒 ， 其 中 70 秒 用 于 执行 浮 点 指令 ，85 秒 用 
于 执行 L/S 指令 ，40 秒 用 于 执行 分 支 指令 。 

[5 ] <1.10> 如 果 浮 点 操作 的 时 间 减 少 20%， 总 时 间 将 减少 多 少 ? 

[5 ] < 1.10 > 如果 将 总 时 间 减 少 20%， 整 型 操作 时 间 应 减少 多 少 ? 

[5 ] <1.10> 如 果 只 减少 分 支 指令 时 间 ， 总 时 间 能 否 减少 20% ? 

假定 一 个 程序 需要 执行 50 x 10° 条 浮 点 指令 、110 x 10 条 整 型 指令 、80 x 10' 条 L/S 指令 和 
16 x 10 条 分 支 指令 。 每 种 类 型 指令 的 CPI 分 别 是 1、1、4 和 2。 假 定 处 理 器 的 时 钟 频率 为 
2GHz。 

[10] < 1.10 > 如 果 我 们 要 将 程序 运行 速度 提高 至 原来 的 2 倍 ， 浮 点 指令 的 CPI 应 如 何 改进 ? 
[10 ] < 1.10 > 如 果 我 们 要 将 程序 运行 速度 提高 至 原来 的 2 倍 ，L/S 指令 的 CPI 应 如 何 改进 ? 
[5] <1.10 > 如 果 整 数 和 浮 点 指令 的 CPI 减 少 40%，L/S 和 分 支 指令 的 CPI 减少 30%， 程 序 的 
执行 时 间 能 改进 多 少 ? 

[5 ] <1.8 > 当 程序 被 调整 到 多 核 处 理 器 系统 的 多 个 处 理 器 上 运行 时 ， 在 每 个 处 理 器 上 的 执行 时 
间 可 分 成 计算 时 间 、 由 于 互 锁 临界 区 和 /或 处 理 器 之 间 传 输 数据 的 通信 带 来 的 时 间 开 销 。 
假定 一 个 程序 在 单 处 理 器 上 执行 需要 的 时 间 1 为 100 秒 。 当 它 在 pb 个 处 理 器 上 运行 时 ， 每 个 
处 理 器 需要 wp 秒 的 计算 时 间 ， 以 及 4 秒 的 额外 开销 ， 且 此 开销 与 处 理 器 数量 无 关 。 在 处 理 器 
数目 分 别 为 2、4、8、16、32、64 和 128 时 ， 计 算 每 个 处 理 器 的 执行 时 间 。 在 每 种 情况 下 ， 
列 出 相对 于 单 处 理 器 的 加 速 比 和 实际 加 速 比 与 理想 加 速 比 的 比值 (理想 加 速 比 是 指 没 有 开销 
情况 下 的 加 速 比 )。 


MFLOPS= 
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性 能 评价 


计算 机 的 五 个 经 典 部 件 


2.1 引言 


要 控制 计算 机 硬件 ， 就 必须 用 它 的 语言 。 计 算 机 语言 中 的 单词 
称 为 指令 ， 其 词汇 表 称 为 指令 系统 (instruction set) 。 在 本 章 中 ， 你 
将 看 到 一 个 真实 计算 机 的 指令 系统 ， 有 人 为 书写 和 计算 机 可 读 两 种 
形式 。 我 们 以 自 上 而 下 的 方式 介绍 指令 。 从 一 种 看 似 受 限 的 编程 语 
言 符号 开始 ， 逐 步 完善 ， 直 到 成 为 计算 机 的 实际 语言 。 第 3 章 继续 
这 个 向 下 的 过 程 ， 揭 示 计 算 硬 件 和 序 点 数 的 表示 。 

你 可 能 认为 计算 机 语言 和 人 类 语言 一 样 种 类 繁多 ， 但 实际 上 计 
算 机 语言 都 十 分 类 似 ， 更 像 是 区 域 方言 而 非 各 自 独立 的 语言 。 因 此 ， 
一 且 学 会 了 一 种 ， 再 学 习 其 他 语言 就 很 容易 了 。 


计算 机 的 语言 





我 同上 帝 说 西班牙 语 ， 和 
女人 说 意大利 语 ， 跟 男人 
说 法 语 ， 对 我 的 马 说 德语 。 
查理 五 世 ， 形 对 罗马 傍 国 

皇 沉 (1500 一 1558) 


指令 系统 : 被 一 个 给 定 体系 
结构 所 理解 的 命令 词汇 表 。 


本 书 所 选 指令 系统 为 RISC-V，2010 年 初 由 加 州 大 学 伯克利 分 校 开发 。 
为 了 演示 学 会 其 他 指令 系统 有 多 人 么 容易 ， 我 们 还 将 快速 浏览 另外 两 个 流行 的 指令 系统 。 


1. MIPS 是 设计 于 20 世纪 80 年 代 的 指令 系统 典范 。 在 许多 方面 


设计 。 


，RISC-V 都 遵循 类 似 的 


2. Intel x86 起 源 于 20 世纪 70 年 代 ， 现 在 仍然 支持 PC 以 及 后 PC 时 代 的 云端 。 
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指令 系统 的 相似 性 是 因为 所 有 计算 机 都 是 基于 相似 基本 原理 的 硬件 技术 构建 的 ， 且 因为 
有 些 基本 操作 是 所 有 计算 机 都 必须 提供 的 。 此 外 ， 计 算 机 设计 人 员 都 有 一 个 共同 目标 : 找到 
一 种 让 构建 硬件 和 编译 器 容易 ， 同 时 最 大 化 性 能 且 最 小 化 成 本 和 资源 的 语言 。 这 是 个 历史 悠 
久 的 目标 。 下 述 引 文 写 于 计算 机 可 购买 前 的 1947 年 ， 但 在 今天 同样 适用 : 


通过 形式 逻辑 方法 很 容易 看 出 ， 存 在 某 些 在 理论 上 足以 控制 和 执行 任意 操作 序列 的 [ 指 
令 系 统 ]…… 从 现 有 观点 来 看 ， 选 择 一 个 [ 指令 系统 ] 的 真正 决定 性 考虑 因素 是 更 具 实 
用 性 : [ 指令 系统 ] 所 要 求 的 硬件 简单 性 ， 及 其 应 用 于 实际 重要 问题 的 清晰 度 以 及 处 理 
这 些 问 题 的 速度 。 


Burks、Goldstine 和 von Neumann，1947 


对 于 今天 的 计算 机 而 言 ,“ 硬 件 简单 性 ”与 20 世纪 50 年 代 一 样 值得 考虑 。 本 章 的 目标 
便 是 讲述 一 个 遵循 此 想法 的 指令 系统 ， 分 别 展示 它 在 硬件 中 如 何 表示 ， 及 其 (更 初级 的 语言 
与 高 级 编程 语言 之 间 的 关系 。 我 们 的 示例 使 用 C 语言 编写 ; 2.15 节 展 示 了 对 于 像 Java 这 样 
的 面向 对 象 的 语言 ， 上 述 部 分 会 有 怎样 的 变化 。 

通过 学 习 如 何 表示 指令 ， 还 能 发 现 计算 的 秘密 : 存储 程序 概念 。 | 存储 程序 概念 : 指令 与 多 
此 外 ， 可 以 通过 使 用 计算 机 语言 编写 程序 ， 并 在 本 书 附带 的 模拟 器 。 | 冲 关 型 的 数据 不 加 区 别 地 

Se fr a 本 和 存储 在 存储 器 中 并 因此 易 
上 运行 以 练习 这 门 “外 语 ”技能 。 我 们 还 将 看 到 编程 语言 和 编译 器 | 于 更 改 ， 办 此 产生 了 存储 
优化 对 性 能 的 影响 。 在 本 章 结束 时 将 简要 介绍 指令 系统 的 历史 演变 | 程序 计算 机 
以 及 其 他 计算 机 语言 。 

我 们 将 逐步 介绍 第 一 个 指令 系统 ， 同 时 给 出 计算 机 结构 的 基本 原理 。 这 个 自 顶 向 下 、 循 
序 渐 进 的 教程 将 组 件 与 解释 相 结合 ， 使 计算 机 语言 更 加 易于 接受 。 图 2-1 给 出 了 本 章 所 包含 
指令 系统 的 预览 。 











RISC-V 操作 数 
示例 注解 
32 个 寄存 器 | x0~x31 _ 快速 定位 数据 。 在 RISC-V 中 ， 只 对 在 寄存 器 中 的 数据 执行 算术 
运 











只 能 被 数据 传输 指令 访问 。RISC-V 使 用 字 节 寻 址 ， 因 此 顺序 双 
字 访 问 相差 8。 存 储 器 保存 数据 结构 、 数 组 和 换 出 的 寄存 器 的 内 容 


Memory[O0], Memory[8), ..., 
> [os] 
2 个 存储 字 | Memory[18 446 744 073 709 551 608] 














RISC-V 汇编 语言 





加 add x5, x6, x7 x5 = x6 + x7 三 寄存 器 操作 数 ; 加 





















































算术 运算 | 减 sub x5, x6, x7 x5 = x6 - x7 三 寄存 器 操作 数 ; 减 
| addi x5, x6, 20 x5 = x6 + 20 用 于 加 常数 
取 双 字 1d x5, 40(x6) x5 = Memory[x6 + 40] 从 存储 器 取 双 字 到 寄存 器 
存 双 字 sd x5, 40(x6) Memory[x6 + 40] = x5 从 寄存 器 存 双 字 到 存储 器 
取 字 lw x5, 40(x6) x5 = Memory[x6 + 40] 从 存储 器 取 字 到 寄存 器 
数据 传输 ”| 取 字 ( 无 符号 数 ) lwu x5, 40(x6) x5 = Memory[x6 + 40] | 从 存储 器 取 无 符号 字 到 寄存 器 
存 字 sw x5，40(x6) Memory[x6 + 40] = x5 从 寄存 器 存 字 到 存储 器 
取 半 字 lh x5, 40(x6) x5 = Memory[x6 + 40] 从 存储 器 取 半 字 到 寄存 器 
取 半 字 ( 无 符号 数 ) lhu x5, 40(x6) x5 = Memory[x6 + 40] 从 存储 器 取 无 符号 半 字 到 寄存 器 





图 2-1 本 章 中 出 现 的 RISC-V 汇编 语言 。 此 信息 列 在 本 书 RISC-V 参考 数据 卡 ” 的 第 1 列 中 


日 见 本 书 封面 和 封底 的 背面 。 一 一 编辑 注 


背 


RISC-V 汇编 语言 
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| sh x5, 40(x6) | Memory[x6 + 40] = x5 





从 寄存 器 存 半 字 到 存储 器 






















































































































































存 半 字 
取 字 节 1b x5, 40(x6) | x5 = Memory[x6 + 40] 从 存储 器 取 字 节 到 寄存 器 
取 字 节 ( 无 符号 数 ) lbu x5, 40(x6) x5 = Memory[x6 + 40] 从 存储 器 取 无 符号 字 节 到 寄存 器 
数据 传输 ”| 存 字 节 | sb x5, 40(x6) Memory[x6 + 40] = x5 从 寄存 器 存 字 节 到 存储 器 
取保 留 字 lr.d x5, (x6) x5 = Memory[x6] 取 ; 原子 交换 的 前 半 部 分 
存 条 件 字 sc.d x7, x5, (x6) | Memory[x6] = x5; x7 = 0/1 存 ; 原子 交换 的 后 半 部 分 
取 立 即 数 高 位 lui x5, 0x12345 x5 = 0x12345000 取 左 移 12 位 后 的 20 位 立即 数 
与 and x5, x6, x7 x5 = x6 & x7 三 寄存 器 操作 数 ; 按 位 与 
或 or x5, x6, x8 x5 = x6 | x8 三 寄存 器 操作 数 ; 按 位 或 
局 异 或 XOr NS. X66: X9 x5 = x6 ^ x9 三 寄存 器 操作 数 ; 按 位 异 或 
逻辑 运算 | 
与 立即 数 andi x5, x6, 20 x5 = x6 & 20 寄存 器 与 常数 按 位 与 
或 立即 数 ori x5, x6, 20 x5 = x6 | 20 寄存 器 与 常数 按 位 或 
异 或 立即 数 xori x5, x6, 20 x5 = x6 ^ 20 寄存 器 与 常数 按 位 异 或 
逻辑 左 移 sll 5 6, 7 x5 = x6 << x7 按 寄 存 器 给 定位 数 左 移 
逻辑 右 移 Srl Xo X6s xy x5 = x6 >> x7 按 寄存 器 给 定位 数 右 移 
算术 右 移 sra xXx5, x6, x7 x5 = x6 》> x7 按 寄存 器 给 定位 数 算术 右 移 
和 的 打 作 逻辑 左 移 立即 数 引 11 KH KO 3 x5 = x6 << 3 根据 立即 数 给 定位 数 左 移 
逻辑 右 移 立即 数 sri1i XSF, x6, 3 x5 = x6 >> 3 根据 立即 数 给 定位 数 右 移 
算术 右 移 立 即 数 Sa X56 x6 3 x5 = X6 >> 3 根据 立即 数 给 定位 数 算术 右 移 
相等 即 跳 转 beq x5，x6，100 if (x5 == x6) go to PC+100 若 寄存 器 数值 相等 则 跳 转 到 PC 相对 地 址 
不 等 即 跳 转 bne x5，x6，100 if (x5 != x6) go to PC+100 | 着 客 存 器 数值 不 等 则 岗 转 到 PC 相对 地 址 
小 于 即 跳 转 | 
条 件 分 支 ”| 大 于 等 于 即 跳 转 bge x5, x6, re (x5 >= x6) go to PC+100 ea | 
小 于 即 跳 转 ( 无 符号 ) bltu x5, x6, 100 | if (x5 < x6) go to PC+100 Ee 
大 于 等 于 即 跳 转 ( 无 符号 )| bgeu x5, x6, 100 | if (x5 >= x6) go to PC+100 守卫 罗 
无 条 件 跳 转 跳 转 -链接 jal xl1，100 x1 ; go to PC+100 用 于 PC 相关 的 过 程 调用 
跳 转 -链接 ( 寄存 器 地 址 ) | jalr xl1， 100(x5) xl = PC+4; go to x5+100 用 于 过 程 返 回 ; 非 直 接 调 用 





( 续 ) 


2.2 计算 机 硬件 的 操作 


每 台 计 算 机 都 必须 能 够 实现 算术 运算 。RISC-V 汇编 语言 的 符号 


dd 守 5 
指示 计算 机 将 两 个 变量 b 和 c 相 加 并 将 其 总 和 放 人 a 中 。 





毫 无 疑问 ， 必 须 有 实现 基 
本 算术 运算 的 指令 。 

Burf. Goldstine {7 von 
Neumann, 1947 


这 种 符号 表示 是 固定 的 ， 其 中 每 个 RISC-V 算术 指令 只 执行 一 
个 操作 ， 并 且 必 须 总 是 只 有 三 个 变量 。 例 如 ,假设 要 将 四 个 变量 b、c、d 和 e 的 和 放 人 变 


量 a 中 。( 本 节 不 深究 “变量 ”的 概念 ， 下 一 节 将 详细 解释 。) 
以 下 指令 序列 将 四 个 变量 相 加 : 


addy DH. ,CE 
add a, a, d 
add a, a, e 


// The sum of b and cis placed in a 
i The sun of bh; CE dhdd 1 Wow nm a 
A The su OF Ds Bd 


因此 ， 需 要 三 条 指令 来 完成 这 四 个 变量 相 加 。 


and e is now in a 


上 面 每 行 双 斜 线 ( //) 的 右边 是 给 读者 的 注释 ， 而 计算 机 会 将 其 忽略 。 请 注意 ， 与 其 他 
编程 语言 不 同 ， 该 语言 每 行 最 多 只 能 包含 一 条 指令 。 与 C 语言 的 另 一 个 区 别 是 注释 总 是 在 一 


行 的 末尾 终止 。 
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类 似 于 加 法 的 操作 一 般 有 三 个 操作 数 : 两 个 被 加 到 一 起 的 数 和 一 个 放置 总 和 的 位 置 。 要 
求 每 条 指令 恰好 有 三 个 操作 数 ， 不 多 也 不 少 ， 符 合 硬件 简单 的 设计 原则 : 操作 数 数量 可 变 的 
硬件 比 固定 数量 的 硬件 更 复杂 。 这 种 情况 说 明了 硬件 设计 三 条 基本 原则 之 一 : 

设计 原则 1: 简单 源 于 规整 。 

现 使 用 以 下 两 个 示例 展示 用 高 级 编程 语言 编写 的 程序 和 用 初级 符号 表示 的 程序 间 的 
关系 。 


| 例题 | 将 两 条 C 赋值 语句 编译 成 RISC-V 
这 段 C 程序 代码 包含 五 个 变量 a、b、c、d 和 e。 由 于 Java 是 从 C 发 展 而 来 的 ， 所 以 
本 例 以 及 接 下 来 若干 示例 都 适用 于 这 两 种 高 级 编程 语言 : 





a=b+e; 
d=a— e; 
编译 器 将 C 语言 转换 成 RISC-V 汇编 指令 。 写 出 编译 器 生成 的 RISC-V 代码 。 
| 答案 | RISC-V 指令 对 两 个 源 操作 数 进行 操作 ， 并 将 结果 放 和 人 一 个 目标 操作 数 。 因 此 ， 上 面 
的 两 条 简单 语句 直接 编译 成 以 下 两 条 RISC-V 汇编 指令 。 


Fa 
Sub d，a，e 








| 例题 | 将 一 条 复杂 的 C 赋值 语句 编译 成 RISC-V = 
有 一 条 包含 五 个 变量 f、g、h 、i 和 j 的 复杂 语句 : 
f= (9 二 记 Y 二 尺 和 于 让 


C 编译 器 可 能 产生 什么 样 的 RISC-V 汇编 指令 ? 
| 答案 | 编译 器 必须 将 该 语句 分 解 为 多 条 汇编 指令 ， 因 为 每 条 RISC-V 指令 只 执行 一 个 操作 。 
第 一 条 RISC-V 指令 计算 g 与 h 之 和 。 因 为 必须 将 结果 放 于 某 处 ， 所 以 编译 器 会 创建 一 个 名 
为 上 0 的 临时 变量 : 

add t0, g, h // temporary variable t0 contains g + h 
虽然 下 一 个 操作 是 减法 ,但 是 需要 在 做 减法 之 前 先 计算 i 与 j 之 和 。 因 此 ， 第 二 条 指令 将 
和 j 的 和 放 人 由 编译 器 创建 的 另 一 个 名 为 上 tl 的 临时 变量 中 : 

add t1,, 1 J Yy7 temnporary variable 十] contalns 1 
最 后 ,减法 指令 从 第 一 条 指令 求 得 的 和 中 减 去 第 二 条 指令 求 得 的 和 ， 并 将 差 值 放 入 变量 f 
中 ， 完 成 编译 : 

号 





| 详细 阐述 为 了 提高 可 移植 性 ，Java 最 初 被 设计 为 依赖 于 软件 的 解释 器 。 这 个 解释 器 的 
指令 系统 称 为 Java 字 节 码 (bytecode， 见 2.15 节 )， 它 与 RISC-V 指令 系统 有 很 大 不 同 。 为 了 
使 性 能 接近 于 等 效 的 C 程序， 现在 的 Java 系统 通常 会 将 Java 字 节 码 编译 为 像 RISC-V 这 样 
的 机 器 指令 。 由 于 完成 这 种 编译 通常 比 C 程 序 晚 得 多 ， 因 此 这 样 的 Java 编译 器 通常 称 为 即 
时 (Just In Time，JIT) 编译 器 。2.12 节 展 示 了 在 程序 启动 过 程 中 ， 相 对 于 C 编译 器 ，JIT 是 
如 何 延 后 使 用 的 ，2.13 节 展 示 了 Java 程序 编译 和 解释 的 性 能 比较 。 
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2.3 ”计算 机 硬件 的 操作 数 

与 高 级 语言 程序 不 同 ,算术 指令 的 操作 数 会 受到 限制 ; 它们 必 ”| 双 字 : 计算 机 中 一 种 访问 
须 取 自 寄存 器 ， 而 寄存 器 数量 有 限 并 内 建 于 硬件 的 特殊 位 置 。 寄 存 | 基本 单位 ， 通常 是 64 位 
器 是 硬件 设计 中 的 基本 元 素 ， 当 计算 机 设计 完成 后 ， 对 程序 员 也 可 | 本 入 和 和 
见 ， 因 此 可 以 将 寄存 器 视 为 计算 机 构建 的 “ 砖 块 ” 。 在 RISC-V 体系 
结构 中 ， 寄 存 器 的 大 小 为 64 位 ; 成 组 的 64 位 频繁 出 现 ， 因 此 它们 We 
在 RISC-V 体系 结构 中 被 命名 为 双 字 。( 另 一 个 常见 大 小 是 成 组 的 32 | 基本 单位 ， 通 常 是 32 位 
位 , 在 RISC-V 体系 结构 中 称 为 字 。) 一 组 。 

程序 语言 的 变量 和 寄存 器 之 间 的 一 个 主要 区 别 是 寄存 器 数量 有 
限 ， 在 当前 RISC-V 等 计算 机 上 通常 为 32 个 (关于 寄存 器 数量 的 演变 历史 见 2.21 节 )。 因 
此 ， 我 们 继续 自 顶 向 下 逐步 引入 RISC-V 语言 的 符号 表示 ， 在 本 节 中 ， 我 们 增加 了 限制 ， 即 
RISC-V 算术 指令 的 三 个 操作 数 必须 从 32 个 64 位 寄存 器 中 选择 。 

寄存 器 个 数 限制 为 32 个 的 原因 可 以 在 我 们 硬件 设计 三 条 基本 设计 原则 的 第 二 条 中 找到 。 

设计 原则 2: 更 少 则 更 快 。 

简单 来 讲 ， 数 量 过 多 的 寄存 器 可 能 会 增加 时 钟 周 期 ， 因 为 电信 和 号 传输 的 距离 越 远 ， 所 花 
费 的 时 间 就 越 长 。 

诸如 “更 少 则 更 快 ”的 设计 原则 不 是 绝对 的 ，31 个 寄存 器 也 许 并 不 比 32 个 更 快 。 然 而 ， 
这 种 发 现 背 后 的 真相 也 需要 计算 机 设计 人 员 认 真 对 待 。 在 这 种 情况 下 ， 设 计 人 员 必 须 在 程序 
对 更 多 寄存 器 的 渴求 和 设计 人 员 对 缩短 时 钟 周期 的 期 望 之 间 取 得 平衡 。 另 一 个 不 使 用 超过 32 
个 寄存 器 的 原因 是 指令 格式 的 位 数 限制 ， 如 2.5 节 所 介绍 的 。 

第 4 章 展示 了 寄存 器 在 硬件 构造 中 扮演 的 核心 角色 ; 正如 将 在 该 章 中 看 到 的 ， 有 效 使 用 
寄存 器 对 于 提高 程序 性 能 至 关 重 要 。 

尽管 我 们 可 以 简单 地 使 用 寄存 器 编号 0 到 31 来 编写 指令 ,但 是 RISC-V 约定 在 “x” 后 
面 跟 一 个 寄存 器 编号 来 表示 ， 有 一 些 例外 的 寄存 器 名 称 我 们 将 稍 后 介绍 。 


| 例题 | 使 用 寄存 器 编译 C 赋值 语句 
编译 器 的 工作 是 将 程序 变量 与 寄存 器 相关 联 。 以 我 们 前 面 例子 中 的 赋值 语句 为 例 : 
ns 
变量 f、g、h、i 和 j 分 别 分 配给 寄存 器 Xx19、x20、x21、x22 和 x23。 编 译 后 的 
RISC-V 代码 是 什么 ? 
| 答案 | 编译 后 的 程序 与 之 前 的 例子 非常 相似 ， 只 是 我 们 用 上 面 提 到 的 寄存 器 名 称 替 换 了 变 
量 ， 并 将 两 个 临时 变量 用 两 个 临时 寄存 器 x5 和 x6 代替 : 
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add x5，X20，x21 // register x5 contains 9g + h 
add X6, X22, X23 V1 register x6 contalins 1 + 
sub XlL9 5 Xe6 Xf qets x5 = XE, Which is (g++ hh — (i j) 





2.3.1 存储 器 操作 数 


程序 语言 中 ， 有 如 同 这 些 例子 一 样 包含 单个 数据 元 素 的 简单 变量 ， 也 有 更 复杂 的 数据 结 
构 一 数组 和 结构 体 。 这 些 复杂 数据 结构 可 以 包含 比 计算 机 中 寄存 器 数量 更 多 的 数据 元 素 。 
计算 机 如 何 表示 和 访问 这 样 庞大 的 数据 结构 呢 ? 
回顾 一 下 计算 机 的 五 个 组 成 部 分 。 处 理 器 只 能 在 寄存 器 中 保存 少量 数据 ， 但 是 计算 机 内 
存 可 以 存储 数 十 亿 数 据 元 素 。 因 此 ， 数 据 结构 (数组 和 结构 体 ) 可 以 保存 在 内 存 中 。 
如 上 所 述 ，RISC-V 指令 中 的 算术 运算 只 作用 于 寄存 器 ， 因 此 ， 
RISC-V 必须 包含 在 内 存 和 寄存 器 之 间 传 输 数据 的 指令 。 这 些 指令 称 人 
为 数据 传输 指令 。 要 访问 内 存 中 的 字 或 双 字 ， 指 令 必须 提供 内 存 地 
址 。 内 存 只 是 一 个 大 型 一 维 数组 ， 其 地 址 作为 该 数组 的 下 标 ， 从 0 | 地 让 :用 于 拉 述 内 存 数组 中 
开始 。 例 如 ， 在 图 2-2 中 ， 第 三 个 数据 元 素 的 地 址 是 2， 内 存 第 2 号 | 特定 所 元素 位 置 的 值 
单元 存放 的 数据 是 10。 








处 理 器 


图 2-2 内存 地 址 和 地 址 中 的 内 容 。 如 果 这 些 元 素 是 双 字 ， 这 些 地 址 将 是 不 正确 的 ， 因 为 
RISC-V 实际 上 使 用 字 节 寻 址 ， 每 个 双 字 代表 8 个 字 节 。 图 2-3 展示 了 顺序 双 字 编 址 
的 正确 内 存 寻 址 


将 数据 从 内 存 复 制 到 寄存 器 的 数据 传输 指令 通常 称 为 载 入 指令 (load) 。 载 人 指令 的 格式 
是 操作 名 称 后 面 紧 跟 数据 待 取 的 寄存 器 ， 然 后 是 寄存 器 和 用 于 访问 内 存 的 常量 9 。 指 令 的 常量 
部 分 和 第 二 个 寄存 器 中 的 内 容 < 相 加 组 成 内 存 地 址 。 实 际 的 RISC-V 指令 名 称 是 4， 表 示 取 
双 字 。 
| 例题 | 当 操 作 数 在 内 存 中 时 ， 编 译 C 赋值 语句 
假设 A 是 一 个 由 100 个 双 字 组 成 的 数组 ， 并 且 编 译 器 和 之 前 一 样 将 寄存 器 x20 和 x21 
分 别 分 配给 变量 g 和 h。 我 们 还 假设 数组 的 起 始 地 址 或 基 址 存放 在 寄存 器 x22 中 。 编 译 这 个 
C 赋值 语句 : 


g=h+A[8]; 





日 即 偏 移 量 。 一 一 译 者 注 
日 即 基 址 。 一 一 译 者 注 
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| 答案 | 虽然 在 这 个 赋值 语句 中 只 有 一 个 操作 ， 但 其 中 一 个 操作 数 在 内 存 中 ， 所 以 我 们 必须 
先 将 AL8] 传送 到 一 个 寄存 器 。 该 数组 元 素 的 地 址 是 数组 A 的 基 址 (在 寄存 器 x22 中 ) 加 上 
元 素 序 号 8 的 和 。 数 据 应 该 放 在 一 个 临时 寄存 器 中 以 便 下 一 条 指令 使 用 。 根 据 图 2-2， 第 一 
条 编译 后 的 指令 是 : 


1d x9，8(x22) // Temporary reg x9 gets A[8] 


(之 后 我 们 将 对 这 条 指令 做 轻微 的 调整 ， 但 现在 使 用 简化 的 版 本 。) 下 一 条 指令 可 以 对 x9 操 
作 ， 因 为 A[8] 已 存放 在 寄存 器 x9 中 。 该 指令 必须 将 h (存放 在 x21 中 ) 和 A[8] (存放 在 
x9 中 ) 相 加 ， 并 将 该 和 放 人 与 9 相对 应 的 寄存 器 x20 中 

add, X20, X21; X9 7 二 人 十 人 [8 


存放 基 址 的 寄存 器 (x22) 被 称 为 基 址 寄存 器 ， 而 数据 传输 指令 中 的 常数 8 称 为 偏 移 量 。 一 一 


| 硬 秤 0 软 伞 搂 可 | 除了 将 变量 与 寄存 器 相对 应 以 外 ， 编 译 器 还 将 像 数 组 和 结构 体 这 样 的 
数据 结构 分 配 到 内 存 中 的 相应 位 置 。 编 译 器 可 以 将 正确 的 起 始 地 址 放 入 数据 传输 指令 中 。 

由 于 8 位 字 节 在 许多 程序 中 非常 有 用 ， 几 乎 所 有 的 体系 结构 都 是 按 单个 字 节 寻 址 的 。 因 
此 ， 双 字 的 地 址 与 双 字 内 的 8 个 字 节 之 一 的 地 址 是 相 匹配 的 ， 并 且 连 续 双 字 的 地 址 相差 8。 
例如 ， 图 2-3 显示 了 图 2-2 中 双 字 的 实际 RISC-V 地 址 ， 第 三 个 双 字 的 字 节 地 址 是 16。 
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图 2-3 实际 的 RISC-V 内 存 地 址 和 这 些 内 存 中 双 字 的 内 容 。 为 了 与 图 2-2 对 照 ， 改 变 了 的 
地 址 用 灰色 标 出 。 由 于 RISC-V 按 字 节 寻 址 ， 因 此 双 字 地 址 是 8 的 倍数 : 双 字 包含 8 
个 字 节 
计算 机 分 为 两 种 ， 一 种 使 用 最 左边 或 “大 端 ” 字 节 的 地 址 作为 双 字 地 址 ， 另 一 种 使 用 最 
右 端 或 “小 端 ” 字 节 的 地 址 作为 双 字 地 址 。RISC-V 属于 后 者 ， 称 为 小 端 编 址 。 由 于 仅 在 以 
双 字 形式 和 八 个 单独 字 节 访问 相同 数据 时 ， 字 节 顺 序 才 会 有 影响 ， 因 此 大 多 数 情况 下 不 需要 
关心 “大 小 端 ”。 
字 节 寻 址 也 会 影响 数组 下 标 。 为 了 在 上 面 的 代码 中 获得 正确 的 字 节 地 址 ， 加 到 基 址 寄存 
器 X22 的 偏 移 量 必须 是 8X8 或 64， 以 便 取 地 址 将 选择 A[8] 而 不 是 AL8/8]。( 参 见 2.19 
节 对 相关 陷阱 的 介绍 。) 
与 载 入 指令 相反 的 指令 通常 被 称 为 存储 指令 〈store)， 它 从 寄存 器 复制 数据 到 内 存 。 存 
储 指令 的 格式 类 似 于 载 入 指令 的 格式 : 操作 名 称 ， 接 着 是 要 写 回 内 存 的 寄存 器 ， 然 后 是 基 址 
寄存 器 ， 最 后 是 选择 数组 元 素 的 偏 移 量 。 同 样 ，RISC-V 地 址 是 由 常数 和 基 址 寄存 器 内 容 共 
同 决定 的 。 实 际 上 的 RISC-V 指令 名 称 是 sd， 表 示 存 储 双 字 。 
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| 胰 细 阐述 在 许多 体系 结构 中 ， 字 的 起 始 地 址 必须 是 4 的 倍数 ， | 对 齐 限制 :数据 在 内 存 中 
双 字 的 起 始 地 址 必须 是 8 的 倍数 。 该 要 求 称 为 对 齐 限 制 。( 第 4 章 将 | 要 与 自然 边界 对 齐 的 要 求 。 
指出 为 什么 对 齐 会 使 数据 传输 更 快 ,) RISC-V 和 Intel x86 没有 对 齐 
限制 ， 但 MIPS 确实 有 此 限制 。 

| 本 种 7 吏 简 接 盏 ”由 于 加 载 和 存储 指令 中 的 地 址 是 二 进 制 数 ， 我 们 可 以 看 到 为 什么 作 
为 主 存 的 DRAM 以 二 进 制 而 不 是 十 进 制 表示 容量 大 小 。 也 就 是 说 ， 是 以 gibibyte (2”) 或 
tebibyte (2 ) 表示 ， 而 不 是 gigabyte ( 10? ) 或 terabyte ( 10” ); 见 图 1-1。 


| 例题 | 使 用 load 和 store 编译 生成 指令 
假设 变量 h 存放 在 寄存 器 x21 中 ， 数 组 A 的 基 址 存放 在 寄存 器 X22 中 。C 赋值 语句 的 
RISC-V 汇编 代码 是 什么 ? 
A[12] = h + A[8]; 


| 答案 | 虽然 在 C 语句 中 只 有 一 个 操作 ， 但 是 现在 在 内 存 中 有 两 个 操作 数 ， 所 以 我 们 需要 更 
多 的 RISC-V 指令 。 前 两 个 指令 与 前 一 个 例子 相同 ， 只 是 这 次 我 们 在 加 载 指令 中 使 用 了 字 节 
寻 址 正确 的 偏 移 量 来 选择 AL8] ， 并 且 加 法 指令 将 总 和 放 在 寄存 器 x9 中 : 


1d Xa ANY // Temporary reg x9 gets A[8] 
ake OS A // Temporary reg x9 gets h + AL8] 


最 后 的 指令 使 用 96 (8x12) 作为 偏 移 量 ， 寄 存 器 x22 作为 基 址 寄存 器 ， 将 总 和 存储 到 
ATL2 1 


sd x9, 96(x22) i Stores t's A back. Tinta. KET2I 











加 载 双 字 和 存储 双 字 是 在 RISC-V 体系 结构 中 存储 器 和 寄存 器 之 间 传 输 双 字 的 指令 。 某 
些 品牌 的 计算 机 使 用 其 他 的 载 和 人 和 存储 指令 来 传输 数据 。 采 用 这 种 替代 方案 的 一 种 体系 结构 
是 2.17 节 中 描述 的 Intel x86。 

| 三 往 7 位 接 加 | 许多 程序 有 着 比 计 算 机 中 寄存 器 数量 更 多 的 变量 。 所 以 ， 编 译 器 会 尽 
量 把 最 常用 的 变量 存放 在 寄存 器 中 ， 剩 下 的 存放 在 内 存 中 ， 使 用 load 和 store 在 寄存 器 和 内 存 
之 间 传 输 变 量 。 将 不 常用 的 变量 (或 稍 后 才 使 用 的 变量 ) 存放 到 内 存 的 过 程 称 为 寄存 器 换 出 。 

关于 大 小 和 速度 的 硬件 设计 原则 表明 内 存 一 定 比 寄存 器 慢 ， 因 为 寄存 器 更 少 。 事 实 确实 
如 此 ， 如 果 数 据 在 寄存 器 而 不 是 内 存 中 ， 数 据 访问 速度 会 更 快 。 

而 且 ， 数 据 在 寄存 器 中 更 有 用 。RISC-V 算术 指令 可 以 读 取 两 个 寄存 器 ， 对 它们 进行 操作 
并 写 入 结果 。RISC-V 数据 传输 指令 只 读 取 一 个 操作 数 或 写 入 一 个 操作 数 ， 并 不 对 其 进行 操作 。 

因此 ， 与 内 存 相 比 ， 寄 存 器 的 访问 时 间 更 短 ， 吞 吐 率 更 高 。 这 使 得 寄存 器 中 的 数据 访 
问 速 度 更 快 ， 使 用 更 简单 。 与 访问 内 存 相 比 ， 访 问 寄存 器 所 需 的 能 耗 也 少 得 多 。 要 获得 最 高 
的 性 能 并 节约 能 耗 ， 指 令 系统 体系 结构 必须 有 足够 多 的 寄存 器 ， 并 且 编 译 器 必须 有 效 使 用 寄 
存 器 。 

翌 细 阐述 让 我 们 全 面 看 待 寄存 器 相对 于 内 存 的 能 耗 和 性 能 。 假 设 访问 一 个 64 位 数据 ， 
和 2015 年 的 DRAM 相 比 ， 寄 存 器 大 约 快 200 倍 (50 纳 秒 与 0.25 纳 秒 )， 能 效 提高 了 10 000 
倍 (1000 皮 焦耳 与 0.1 皮 焦耳 )。 这 些 巨大 的 差异 导致 了 缓存 的 出 现 ， 它 们 被 用 于 减少 访问 
内 存 带 来 的 能 耗 和 性 能 损失 (参见 第 5 章 )。 


2.3.2 ”常数 或 立即 数 操作 数 
程序 经 常会 





59 会: 计 滤 机 符 语 言 51 
一 次 操作 中 用 到 常数 ， 例 如， 递增 数组 下 标 以 指向 数组 的 下 一 个 元 素 。 实 
际 上 ， 在 运行 SPEC CPU2006 基准 测试 程序 集 时 ， 超 过 一 半 的 RISC-V 算术 指令 有 一 个 常数 
操作 数 。 
只 使 用 目前 介绍 


ld x9, AddrConstant4(x3) 
add X22, X22; X9 


过 的 指令 ,我 们 需要 将 常数 从 内 存 中 取出 才能 使 用 。( 这 些 常数 会 在 程 
序 加 载 的 时 候 存放 到 内 存 中 。) 例如 ， 要 将 常数 4 加 到 寄存 器 x22， 可 以 使 用 以 下 代码 : 
人 x9 = eonstant 4 
/1 X22 = X22 市 X9 (Where x9 == 并) 
假设 x3 + AddrConstant4 是 常数 4 的 内 存 地 址 。 
避免 使 用 加 载 指令 的 一 种 方法 是 提供 另 一 个 版 本 的 算术 指令 
只 需 写 成 : 
addi 


次 2 


.a 


它 的 其 中 一 个 操作 数 是 党 
数 。 这 种 带 有 一 个 常数 操作 数 的 快速 加 指令 称 为 立即 数 加 或 addi。 要 将 4 加 到 寄存 器 x22， 
x22, 4 


来 确定 要 定义 的 常数 ， 这 是 第 1 章 中 重要 思想 


常数 0 有 男 一 个 作用 ， 通 过 有 效 使 用 它 可 以 简化 指令 系统 体系 结构 。 例 如 ,你 可 以 使 用 


常数 操作 数 经 常 出 现 ; 的确 ，addi 是 大 多 数 RISC-V 程序 中 最 常用 的 指令 。 通 过 把 常 
数 作为 算术 指令 操作 数 ， 和 从 存储 器 取 中 出 常数 相 比 ， 操 作 速 度 更 快 ， 能 耗 更 低 。 
常 0 寄存 器 求 原 数 的 相反 数 。 因 此 ，RISC-V 专用 寄存 器 x0 硬 连 线 到 常数 0。 根 据 使 用 频率 








性 事件 的 另 一 个 实例 。 





多 种 变 体 。 除 了 这 种 称 为 RV64 的 变 体 之 外 ， 还 有 一 种 具有 32 位 寄存 器 的 名 为 RV32 的 变 
体 ， 成 本 降低 的 RV32 能 更 好 地 适用 于 低 成 本 的 处 理 器 。 
样 的 例子 。 


| 详细 阐述 尽管 本 书 中 的 RISC-V 寄存 器 为 64 位 宽 ， 但 RISC-V 架构 师 构 思 了 ISA 的 


的 ， 它 


已 不 再 适合 用 偏 移 量 保存 。 


| 详细 阐述 RISC-V 中 偏 移 量 加 基 址 寄存 器 的 寻 址 方式 对 于 数组 和 结构 体 来 说 非常 适用 ， 
向 数组 的 起 始 地 址 。 因 此 ， 基 址 寄存 器 也 被 称 为 下 标 寄存 器 。 而 现在 ， 内 存 容量 大 大 增加 ， 


因为 寄存 器 可 以 指向 结构 的 起 始 地 址 ， 偏 移 量 可 以 选择 所 需 的 元 素 。 我 们 将 在 2.13 节 看 到 这 
| 详 鲍 益 述 数据 传输 指令 中 的 寄存 器 最 初 是 为 了 保存 一 个 数组 的 下 标 ， 而 偏 移 量 用 于 指 
数据 分 配 的 软件 模型 更 加 复杂 ， 所 以 数组 的 基地 址 通常 在 寄存 器 中 传输 ， 正 如 我 们 将 看 到 


| 详细 阐述 从 32 位 地 址 计算 机 到 64 位 地 址 计算 机 的 变化 让 编译 器 编写 者 不 得 不 考虑 C 
语言 中 数据 类 型 的 大 小 。 显 然 ， 指 针 应 该 是 64 位， 但 整 型 应 该 是 多 少 位 ? 此外，C 语言 有 


数据 类 型 int、1ong int 和 1ong 1ong int。 问 题 来 自 于 将 一 种 数据 类 型 转换 为 另 一 种 
数据 类 型 的 时 候 ， 在 C 代码 中 出 现 了 意外 溢出 ， 这 种 溢出 并 不 完全 符合 标准 ， 不 幸 的 是 该 情 
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况 并 不 罕见 。 下 表 显 示 了 两 个 常见 的 选项 : 





操作 系统 | i long int | long long int 


Microsoft Windows 64 位 | 32 位 | 32 位 64 位 | 
| Linux 和 大 部 分 Unix 64 位 | 32 位 | 64 位 64 位 | 











虽然 每 个 编译 器 可 能 有 不 同 的 选择 ,但 编译 器 通常 会 关联 每 个 操作 系统 并 做 出 相同 的 
决定 。 为 了 让 示例 更 简单 ， 在 本 书 中 ,我 们 将 假设 指针 都 是 64 位 ， 并 将 声明 所 有 的 C 整 型 
为 1ong 1ong int 以 保持 相同 的 大 小 。 我 们 同样 也 遵循 C99 标准 并 声明 用 作 数 组 下 标的 
变量 是 Size 七， 这 可 以 保证 无 论 数 组 多 大 ， 它 们 的 大 小 都 是 正确 的 。 它 们 通常 都 被 声明 为 
ony Thts 


2.4 有 符号 数 与 无 符号 数 


首先 来 快速 回顾 一 下 计算 机 是 如 何 表示 数 的 。 人 们 会 习惯 性 地 想到 十 进 制 ， 但 其 实数 可 
以 用 任意 基数 表示 。 例 如 ， 十进制 的 123 等 于 二 进 制 的 1111011 。 

数字 以 一 系列 高 低 电 信和 号 的 形式 保存 在 计算 机 硬件 中 ， 因 此 它们 被 认为 是 基数 为 2 的 
数 。( 正 如 基数 为 10 的 数 称 为 十 进 制 数 ， 基 数 2 的 数 称 为 二 进 制 数 。) 

由 于 在 计算 机 中 所 有 信息 都 由 二 进 制 数位 (binary digit) 或 位 | 二 进 制 数位 . 也 称 作 位 ， 
(bit) 表示 ， 因 此 二 进 制 数 计算 的 “原子 ”单位 是 单个 数位 。 有 两 种 | 以 2 为 基数 表示 ,或 0 或 
取 值 ， 可 以 被 理解 为 : 高 或 低 ， 开 或 关 ， 真 或 假 ，1 或 0。 1， 作 为 信息 的 基本 单位 。 

推广 到 任意 基数 ， 第 i 个 数位 4 的 值 是 

吕 芝 基 “/ 
其 中 i 从 0 开始 并 从 右 向 左 递增 。 显 然 ， 这 种 表示 方法 可 以 计算 双 字 中 的 位 所 表示 的 数 : 简 
单 地 把 该 位 用 作 基 数 的 短 。 下 标 10 表示 十 进 制 数字 ，2 表示 二 进 制 数字 。 例 如 ， 

1011; 
表示 
CD 
(这 加 于 人 这 

= 8 = 0 + 2 一 li10 

= La 
在 64 位 双 字 中 ， 从 右 向 左 依次 将 位 编号 为 0，1，2，3…… 下 图 展示 了 RISC-V 双 字 内 的 位 
编号 和 数字 1011; 的 存放 位 置 (为 适合 本 书页 面 ， 将 其 分 成 两 部 分 ): 


63 62 61 60 59 58 57 56 55 54 53 52 51 50 49 48 47 46 45 44 43 42 41 40 39 38 37 36 35 34 33 32 


looooleoooleeooleeoeoleeeoleeeoleeeeoleoe。on 


31 3029282 7 20202423222L420194817 104544131211109 8 7 6 5 420 























[oooeoleoeooleoooleoeoleoeoeoleeooleeoeolioili 





( 64 位 宽 ， 分 成 32 位 的 两 行 ) 


由 于 双 字 既 可 以 横向 表示 也 可 以 纵向 表示 ， 因 此 最 左 侧 和 最 右 
侧 可 能 不 明确 。 最 低 有 效 位 ( least significant bit) 指 的 是 最 右边 的 位 


最 低 有 效 位 : 以 RISC-V 为 
例 ， 指 双 字 中 最 右边 的 位 。 
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(上 图 中 第 0 位 )， 最 高 有 效 位 ( most significant bit) 指 的 是 最 左边 的 ”| 最 高 有 效 位 : 以 RISC-V 为 

位 (上 图 中 第 63 位 )。 例 ， 指 双 字 中 最 左边 的 位 。 
RISC-V 的 双 字 为 64 位 宽 ， 因 此 可 以 表示 2” 种 不 同 的 组 合 模 

式 。 这 些 组 合 自然 就 可 以 表示 从 0 到 2“-1 之 间 (18 446 774 073 709 551 615io ) 的 数 : 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000, = 0 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001, = lo 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010, = 2 





L111 TLLIIL WINLLLYEL TILILED THIEL TILLLIIE TIT1TLY TINTLD01 = T8446 T7744 3 T7098 331 6133 
11111111 11111111 11111111 11111111 11111111 11111111 11111111 11111110, = 18 446 744 073 709 551 614,, 


1111111] 1111111l T111111Y 11111111 11111111 11111111 11111111l 11111111l; = 18 446 744 073 709 551 人 5 


也 就 是 说 ，64 位 二 进 制 数 可 以 用 每 位 的 数值 乘 上 2 的 短 之 和 (这 里 x; 表示 x 的 第 i 位 ) 

来 表示 : 
(Xe3X 2°3)+( Xe X25)+( Xe X21)++( X11 X21)+( Xo xX 2°) 

稍 后 将 会 看 到 ， 由 于 一 些 原因 ， 这 些 正 数 称 为 无 符号 数 。 

| 硬 古 7 均 古 接 国 以 2 为 基数 不 符合 人 类 常识 。 我 们 有 10 个 手指 ， 自 然 会 用 10 作 基 
数 。 为 什么 计算 机 不 使 用 十 进 制 ? 事实 上 ， 第 一 台 商 用 计算 机 确实 提供 了 十 进 制 算术 。 问 题 
在 于 计算 机 仍然 使 用 开关 信号 ， 需 要 用 若干 个 二 进 制 数 位 来 表示 一 个 十 进 制 数 ， 因 此 十 进 制 
被 证 明 是 非常 低 效 的 。 所 以 后 来 的 计算 机 全 部 转向 了 二 进 制 ， 只 将 相对 不 频繁 的 输入 / 输出 
事件 转 为 十 进 制 。 

注意 ， 上 面 的 二 进 制 位 模式 只 是 数 的 简单 表示 。 实 际 上 数 有 无 限 多 位 ， 除 了 最 右边 的 少 
数 几 位 以 外 ， 其 余 大 部 分 都 是 0。 因 此， 通常 不 显示 前 导 0。 

可 以 为 加 、 减 、 乘 、 除 操作 的 二 进 制 位 模式 设计 硬件 。 如 果 这 些 操作 结 果 正 确 但 不 能 用 
最 右 端的 硬件 位 来 表示 ， 则 称 溢 出 发 生 。 如 何 处 理 溢出 取决 于 编程 语言 、 操 作 系 统 和 程序 。 

计算 机 程序 可 以 计算 正 数 和 负数 ， 因 此 需要 一 种 表示 方法 来 区 分 正 数 和 负数 。 最 显然 
的 解决 方法 是 增加 一 个 单独 的 符号 位 来 表示 ， 这 种 表示 方法 称 为 原 码 (sign and magnitude ) 
表示 。 

然而 ， 这 种 表示 有 若干 缺点 。 首 先 ， 在 哪里 放置 符号 位 并 不 明确 ， 放 在 右边 还 是 左边 ? 
早期 的 计算 机 都 尝试 过 。 其 次 ， 由 于 无 法 预先 知道 符号 是 什么 ， 这 种 加 法 器 可 能 需要 额外 的 
步骤 来 设置 符号 。 最 后 ， 一 个 单独 的 符号 位 意味 着 这 种 表示 既 有 正 零 又 有 负 零 ， 这 会 给 玻 忽 
大 意 的 程序 员 带 来 问题 。 这 些 缺 点 导致 符号 和 幅 值 表 示 方 法 很 快 就 被 放弃 了 。 

在 寻找 一 个 更 具 吸 引力 的 替代 方法 时 出 现 了 这 样 一 个 问题 ， 如 果 试 图 从 一 个 小 数 中 减 去 
一 个 大 数 ， 无 符号 数 表 示 方 法 的 结果 会 是 什么 ? 答案 是 它 会 尝试 从 一 串 前 导 0 中 借 位 ， 所 以 
结果 会 有 一 串 前 导 1。 

鉴于 没有 明显 的 更 优 蔡 代 方法 ， 最 终 解 决 方案 是 选择 简化 硬件 的 表示 方法 : 前 导 
0 表示 正 数 ， 前 导 1 表示 负数 。 这 种 表示 有 符号 二 进 制 数 的 约定 称 为 二 进 制 补 码 (two’s 
complement) 表示 法 : } 

00000000 00000000 00000000 00000000 00000000 00000000 00000000, = 0i。 

00000000 00000000 00000000 00000000 00000000 00000000 00000001,= li 

00000000 00000000 00000000 00000000 00000000 00000000 00000010, = 2， 


0 





ON 二 5 
OLLIE T1111 TIA IT DT LU IT MING, = 9 223 27 036 B54 775 B06,, 
01111111 11111111 11114111 II 1111111Y 1111111Y 11111111 11111111, = 9 223 372 036 854 775 807, 
10000000 00000000 00000000 00000000 00000000 00000000 00000000 00000000; = - 9 223 372 036 854 775 808, 
10000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001, = - 9 223 372 036 854 775 807， 
10000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010, = - 9 223 372 036 854 775 806,, 


LLLLLIL TLILLLEDL LIELLLLL LILLELL TLILLLLL dilLLLLL Tal LLL = 8 
有 到 地 让 缚 他 隔 直 隐 新 且 训 闭关 了 有 了 寂 了 隐 吉 和 抱 风 了 向 这 所 卫 取 认同 
LULL lLLLLL TI TL BRITTHT TI 311 TI SS 


从 0 到 9 223 372 036 854 775 807io (24-1 ) 的 正 数 与 之 前 的 表示 相同 。 位 模式 1000… 
0000; 表示 最 小 负数 -9 223 372 036 854 775 808io ( -22 )。 而 后 是 一 组 递增 的 负数 : 从 -9 
223 372 036 854 775 807io ( 1000 ... 00012) 到 -lo (1111... 1111, )。 

二 进 制 补 码 表示 确实 有 一 个 负数 没有 相应 的 正 数 : -9 223 372 036 854 775 808io。 这 种 
不 平衡 也 会 令 朴 忽 大 意 的 程序 员 发 竹 ， 但 是 符号 和 幅 值 表示 却 会 给 程序 员 与 硬件 设计 人 员 都 
带 来 问题 。 因 此 ， 现 在 所 有 计算 机 都 使 用 二 进 制 补 码 来 表示 有 符号 数 。 

二 进 制 补 码 表示 的 优点 是 ， 所 有 负数 的 最 高 有 效 位 都 为 1。 因此， 硬件 只 需要 检测 这 一 
位 就 可 以 查看 是 正 数 还 是 负数 (数字 0 被 认为 是 正 数 )。 这 个 位 通常 被 称 为 符号 位 (sign bit) 。 
理解 了 符号 位 的 作用 ， 就 可 以 用 每 位 数值 乘 以 2 的 震 之 和 来 表示 正 负 数 的 64 位 数 : 


(0 
符号 位 乘 以 -2 ， 然 后 其 余 位 分 别 乘 以 它们 各 自 基 值 的 正 值 。 


| 例题 | 二 进 制 转换 为 十 进 制 
下 面 这 个 64 位 二 进 制 补 码 的 十 进 制 数 是 多 少 ? 
LL, LEELbLLL LLL LILTTLIIL LIER TLL WILE 411100; 


| 答案 | 





(0 
-2+2+2 4+ +2+0+0 
= 一 9223372036854775808, + 9223372036854775804i。 
= 


稍 后 将 给 出 一 个 简化 负数 转正 数 计算 的 捷径 。 


正如 对 无 符号 数 的 操作 结果 可 能 超出 硬件 容量 而 产生 溢出 一 样 ， 对 二 进 制 补 码 的 操作 也 
是 如 此 。 当 二 进 制 位 模式 下 最 左边 的 保留 位 与 左边 的 无 限 数位 不 相同 时 ( 即 符号 位 不 正确 )， 
溢出 发 生 : 当 数 为 负数 时 最 左 侧 为 0， 或 当 数 为 正 数 时 最 左 侧 为 1。 

| 嘱 古 7 软件 接 加 | 有 符号 相 比 无 符号 更 适用 于 载 入 和 算术 运算 。 有 符号 载 入 的 功能 是 复 
制 符号 位 填充 寄存 器 的 剩余 部 分 ( 称 为 符号 扩展 )， 其 目的 是 在 该 寄存 器 中 正确 表示 该 数 。 由 
于 位 模式 表示 的 是 无 符号 数 ， 因 此 无 符号 载 入 只 需 在 数据 的 左 侧 填充 0。 
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当 把 一 个 64 位 双 字 载 入 一 个 64 位 寄存 器 中 时 ， 上 述 讨 论 是 无 意义 的 ， 此 时 有 符号 数 和 
无 符号 数 的 载 入 是 相同 的 。RISC-V 确实 提供 了 两 种 字 节 载 入 方式 : 无 符号 字 节 载 入 (1bu) 
将 字 节 视 为 无 符号 数 ， 因 此 用 零 扩 展 填充 寄存 器 的 最 左 位 ， 而 字 节 载 入 (1b) 使 用 带 符号 整 
数 。 由 于 C 程序 几乎 总 是 使 用 字 节 来 表示 字符 ， 而 不 是 将 字 节 视 为 有 符号 短 整数 ， 所 以 1bu 
实际 上 专门 用 于 字 节 载 入 。 

| 而 祁 凤 交 伴 搂 加 | 与 上 面 讨论 的 有 符号 数 不 同 ， 内 存 地 址 自然 地 从 0 开始 并 延续 到 最 大 
的 地 址 。 换 名 话说 ， 负 地 址 是 没有 意义 的 。 因 此 ， 程 序 有 时 需要 处 理 可 正 可 负 的 数 ， 而 有 
时 需要 处 理 只 能 为 正 的 数 。 一 些 编程 语言 反映 了 这 种 区 别 。 例 如 ，C 语言 将 以 上 两 种 情况 中 
的 前 者 称 作 整数 (在 程序 中 声明 为 1ong 1ong int) 并 将 后 者 称 作 无 符号 整数 (unsigned 
1ong 1ong int)。 一 些 C 语 言 风格 的 指导 书 甚至 建议 将 前 者 声明 为 signed 1ong 1ong 
int， 加 以 清晰 区 别 。 

看 一 下 使 用 二 进 制 补 码 时 的 两 种 有 用 的 快捷 方式 。 第 一 种 是 对 二 进 制 补 码 求 相 反 数 的 快 
速 方法 。 简 单 地 把 每 个 0 都 转 为 1 以 及 每 个 1 都 转 为 0， 然 后 对 结果 加 1。 这 个 捷径 是 基于 
以 下 观察 : 一 个 数 与 其 取 反 表达 式 的 和 一 定 是 111 .… 111，,，， 它 表示 -1。 由 于 x+ 和 = -1， 因 
此 x+X+1=0 或 ?+1= -x。( 用 符号 表示 x 按 位 取 反 。) 





| 例题 | 求 相反 数 的 捷径 . 
对 21 求 相反 数 ， 然 后 通过 对 -216 求 相反 数 来 验证 结果 。 
| 答案 | 


210 =00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010; 


通过 按 位 取 反 再 加 1 对 该 数 求 反 ， 


ed A LL RIL TLL all lll ld hl ll 
la 


十 


天 
-210 


男 一 方面 ， 对 
Dlyidla. Lal lll DI dL i lll FELLILLEL Ll LL 


先 取 反 再 加 1: 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001; 
ly 


上 


十 








00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000010， 
210 








第 二 种 方式 是 将 一 个 用 n 位 表示 的 二 进 制 数 转换 为 一 个 用 多 于 nn 位 表示 的 数 。 先 取 位 数 
更 少 的 数 的 最 高 位 (符号 位 )， 并 将 其 复制 来 填充 位 数 更 多 的 数 的 新 位 。 原 来 的 非 符 号 位 被 复 
制 到 新 双 字 的 右 侧 部 分 。 这 个 方式 通常 被 称 为 符号 扩展 (sign extension ) 。 


| 例题 | 符号 扩展 的 快捷 方式 a 
将 16 位 二 进 制 数 2。 和 -2io 转换 成 64 位 二 进 制 数 。 
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| 答案 | 数字 2 的 16 位 二 进 制 表 示 为 : 
00000000 00000010s= 210 


通过 把 最 高 有 效 位 (0 ) 复制 48 份 放 到 双 字 的 左 侧 ， 将 其 转换 为 64 位 数 。 把 原来 的 值 放 到 


右 侧 : 


00000000 00000000 00000000 00000000 00000000 00000000 00000000 000000102= 210 


使 用 前 面 的 快捷 方式 对 16 位 二 进 制 数 2 求 反 。 因 此 ， 
0000 0000 0000 0010; 
变 成 
TEA ELL EOL; 
十 


2 


= L111LLiE LEDILLO 


将 负数 转换 为 64 位 意味 着 要 将 符号 位 复制 48 次 并 放 到 左 侧 : 


LEITLLLLT TEDLILIL PIELILLY TlITLILL TILLILTLIL TIL LULLIILL Lil iO SS 2 





该 方式 之 所 以 有 效 是 因为 在 正 数 二 进 制 补 码 的 左边 实际 上 是 无 限 个 0， 而 负数 的 二 进 制 
补 码 在 左边 是 无 限 个 1。 二 进 制 位 模式 隐藏 了 前 面 的 位 以 适应 硬件 的 宽度 ， 符 号 扩展 只 是 恢 


复 其 中 的 一 些 。 
总 结 


本 节 的 重点 是 要 在 计算 机 中 表示 正 整 数 和 负 整 数 ， 尽 管 所 有 表示 方法 都 有 优 缺 点 ， 但 自 


1965 年 以 来 的 一 致 选择 都 是 二 进 制 补 码 表示 方法 。 


| 说 一 阐 带 | 对 于 有 符号 十 进 制 数 ， 由 于 其 没有 大 小 限制 ， 因 此 使 用 “一 ”来 表示 负数 。 
对 于 给 定数 据 大 小 的 二 进 制 和 十 六 进 制 ( 见 图 2-4) 位 串 ， 可 以 对 符号 进行 编码 ， 因 此 通常 


不 使 用 带 “+” 或 “一 ”的 二 进 制 或 十 六 进 制 符号 。 


[| 泽 细 阐 速 | 二 进 制 补 码 的 命名 源 于 下 述 规则 : 一 个 nn 位 数 与 其 nn 位 相反 数 的 无 符号 和 为 


2"， 因 此 ， 一 个 数 x 的 相反 数 或 “二 进 制 补 码 ” 为 2" 一 x。 

“二 进 制 补 码 ” 和 “ 原 码 ” 以 外 的 第 三 种 替代 表示 方法 称 为 反 
码 。 反 码 的 相反 数 通过 反 转 每 一 位 ，0 变 成 1，1 变 成 0 或 区 来 求 
得 。 因 为 x 的 补 数 是 2"-x-1， 这 正好 可 以 解释 补 码 的 命名 。 它 试 
图 成 为 一 种 比 “ 原 码 ” 更 好 的 解决 方案 ,并且 一 些 早期 的 科学 计 
算 机 确实 使 用 了 这 种 表示 方法 。 它 与 二 进 制 补 码 相似 ,但 它 有 两 
个 0 : 00...00; 为 正 0， 而 11...112 为 负 0。 最 小 负数 10...000, 表示 
一 2 147 483 6471o， 所 以 正 数 和 负数 的 个 数 是 平衡 的 。 反 码 加 法 器 中 
需要 一 个 额外 的 步骤 来 减 去 一 个 数字 ， 因 此 ， 现 在 的 计算 机 中 二 进 
制 补 码 占 主导 地 位 。 

第 3 章 中 讨论 浮 点 时 ， 将 会 看 到 最 后 一 种 表示 方法 。 它 用 00...000， 
表示 最 小 负数 ，11...11> 表示 最 大 正 数 ， 而 0 通常 表示 为 10...00;。 这 
种 表示 方法 通过 给 数 加 上 偏 移 量 得 到 一 个 非 负 表示 形式 ， 因 此 称 为 
偏 移 表示 法 (biased notation ) 。 


反 码 : 一 种 数 的 表示 方 
法 。 用 10...000; 表示 最 小 
负数 ，01...11; 表示 最 大 正 
数 ， 负 数 和 正 数 的 个 数 相 
等 ， 且 有 两 个 零 ， 一 个 正 
零 (00...00; ) 和 一 个 负 零 
( 11...112 )。 该 术语 也 用 于 
表示 按 位 取 反 : 0 变 1, 1 
变 0。 


偏 移 表 示 法 : 一 种 数 的 表 
示 方 法 。 用 00...000; 表示 
最 小 负数 ，11...11; 表示 最 
大 正 数 ，10...000, 表示 零 ， 
通过 给 数 加 上 偏 移 量 得 到 
一 个 非 负 表示 形式 。 
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自我 检测 以 下 64 位 二 进 制 补 码 数 的 十 进 制 数 是 多 少 ? ， 

11111111 11111111 11111111 11111111 11111111 1111111 11111111 11111000。 
1. -4i0 本 1 pt 
—810 

ee 

18 446 744 073 709 551 60910 
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2.5 计算 机 中 的 指令 表示 

人 们 使 用 计算 机 指令 的 方式 和 计算 机 识别 指令 的 方式 是 不 同 的 ， 现 在 我 们 开始 解释 这 种 
差异 。 

指令 以 一 系列 高 低 电 平 信号 的 形式 保存 在 计算 机 中 ， 并 且 以 数字 的 形式 表示 。 实 际 上 ， 
每 条 指令 的 各 个 部 分 都 可 以 被 视 为 一 个 单独 的 数 ， 把 这 些 数字 并 排 拼 到 一 起 便 形 成 了 指令 。 
RISC-V 的 32 个 寄存 器 也 只 是 用 0 到 31 这些 数 来 表示 。 


| 例题 | 将 一 条 RISC-V 汇编 指令 翻译 为 一 条 机 器 指令 

下 面 以 RISC-V 为 例 ， 对 于 符号 表示 为 

add x9, x20, x21 

的 RISC-V 指令 ， 首 先 以 十 进 制 表示 ， 然 后 用 二 进 制 表示 
| 答案 | 十 进 制 表示 为 : 

[和 | 

条 指令 的 每 一 段 称 为 一 个 字段 。 第 一 、 第 四 和 第 六 个 字段 (0、0 和 51 ) 组 合 起 来 告 

诉 RISC-V 计算 机 该 指令 执行 加 法 操作 。 第 二 个 字段 给 出 了 作为 加 法 运算 的 第 二 个 源 操作 
数 的 寄存 器 编号 (21 表示 x21)， 第 三 个 字段 给 出 了 加 法 运算 的 另 一 个 源 操 作 数 (20 代表 
x20)。 第 五 个 字段 存放 要 接收 总 和 的 寄存 器 编号 (9 代表 x9 )。 因 此 ， 该 指令 将 寄存 器 x20 
和 寄存 器 x21 相 加 并 将 和 存放 在 寄存 器 x9 中 。 

该 指令 也 可 表示 为 二 进 制 的 形式 : 


7 位 5 位 7 位 

















一 看 


这 种 指令 的 设计 被 称 为 指令 格式 。 从 位 数 可 以 看 出 ， 这 个 
RISC-V 指令 只 需要 32 位 ， 刚 好 是 一 个 字 或 一 个 双 字 的 一 se 
“简单 源 于 规整 ”的 设计 原则 ，RISC-V 指令 都 是 32 位 长 。 

为 了 把 它 和 汇编 语言 区 分 开 来 ,我 们 把 指令 的 数字 表示 称 作 机 
器 语言 ， 把 这 样 的 指令 序列 称 作 机 器 码 。 

也 许 你 现在 正在 阅读 和 编写 见长 的 二 进 制 字 串 。 为 了 避免 这 种 
乏味 ,我 们 可 以 通过 使 用 比 二 进 制 基数 更 大 且 更 容易 转换 为 二 进 制 
的 进 制 表示 。 由 于 几乎 所 有 的 计算 机 数据 大 小 都 是 4 的 倍数 ， 所 以 六 进 制 数 :以 16 为 基 

六 进 制 (基数 为 16 ) 数 很 流行 。 由 于 基数 16 是 2 的 究 ， 所 以 我 们 0 


指令 格式 : 由 二 进 制 数字 
字段 组 成 的 指令 表示 形式 。 





机 器 语言 : 用 于 计算 机 系 
统 内 通信 的 二 进 制 表示 。 
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可 以 通过 将 二 进 制 数 的 每 4 位 蔡 换 为 一 位 16 进 制 数 来 完成 二 进 制 到 十 六 进 制 的 转换 ， 反 之 
亦 然 。 图 2-4 显示 了 在 十 六 进 制 和 二 进 制 之 间 的 转换 。 


EE EE 




















0,. 0000, 4,。 0100, | 8,, 1000, ce 1100, 
1 0001, i 0101, 9 。 1001, de 1101, 
0010, | 6 。 0110, i 1010, Gs 1110, 
3 0014, | 0111, 1011, 和 4 




















图 2-4 十 六 进 制 -二 进 制 转换 表 。 只 需 将 一 位 十 六 进 制 数 替 换 为 相应 的 4 位 二 进 制 数 ， 反 
之 亦 然 。 如 果 二 进 制 数 的 长 度 不 是 4 的 倍数 ， 则 从 右 向 左 进行 转换 


因为 经 常 要 处 理 不 同 的 进 制 ,为 了 避免 混淆 ， 我 们 给 十 进 制 数 加 下 标 10， 给 二 进 制 数 


加 下 标 2， 给 十 六 进 制 数 加 下 标 16。( 如 果 没 有 下 标 ， 则 默认 为 十 进 制 。) 此 外 ，C 和 Java 使 
用 符号 0xnnnn 来 表示 十 六 进 制 数 。 


| 例题 | 二 进 制 和 十 六 进 制 间 的 转换 . 
将 下 面 的 8 位 十 六 进 制 数 转换 为 二 进 制 ,将 32 位 二 进 制 数 转换 为 十 六 进 制 : 


eca8 6420,， 
BO 001 L101 QL O01 T0111 1101 1111; 


| 答案 | 利用 图 2-4， 答 案 只 需 查 表 一 次 即 可 得 到 : 
eca8 6420,, 


a 


1110 1100 1010 1000 0110 0100 0010 0000, 








按 反 方向 查 表 一 次 : 
1357 9bdfie 
RISC-V 字段 


给 RISC-V 字段 命名 使 其 更 易于 讨论 : 
| nmer | We | wt | fia | ww | ape | 
7 位 5 位 5 位 3 位 5 位 7 位 





以 下 是 RISC-V 指令 中 每 个 字段 名 称 的 含义 : 

e opcode (操作 码 ): 指令 的 基本 操作 ， 这 个 缩写 是 它 的 惯用 名 称 。 | 操作 码 :用 于 表示 指令 操 
e rd: 目的 操作 数 寄存 器 ， 用 来 存放 操作 结果 。 作 和 指令 格式 的 字段 。 

e funct3 : 一 个 另外 的 操作 码 字段 。 

e IsS1: 第 一 个 源 操 作 数 寄存 器 。 
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e rs2: 第 二 个 源 操作 数 寄存 器 。 

e funct7: 一 个 另外 的 操作 码 字段 。 

当 指令 需 要 比 上 面 显 示 的 更 长 的 字段 时 就 会 出 现 问题 。 例 如 ， 加 载 寄 存 器 指令 必须 指定 
两 个 寄存 器 和 一 个 常数 。 如 果 地 址 使 用 上 述 格式 中 5 位 字段 中 的 一 个 ， 则 加 载 寄 存 器 指令 内 
的 最 大 常数 将 被 限制 为 2 -1 或 31。 该 常数 用 于 从 数组 或 数据 结构 中 取 数 ， 并 且 它 通常 需要 
比 31 大 得 多 的 数 。 所 以 5 位 字段 太 小 ， 用 处 不 大 。 

因此 ， 在 所 有 指令 保持 相同 长 度 的 需求 和 保持 单一 的 指令 格式 的 需求 之 间 产 生 了 矛盾 ， 
这 个 矛盾 也 将 我 们 引 向 最 终 的 设计 原则 。 

设计 原则 3: 优秀 的 设计 需要 适当 的 折 中 。 

RISC-V 设计 人 员 选 择 的 折 中 方案 是 保持 所 有 指令 长 度 相同 ， 对 于 不 同 的 指令 使 用 不 同 
的 指令 格式 。 例 如 ， 上 面 的 格式 称 为 R 型 (用 于 寄存 器 )。 男 一 种 指令 格式 的 类 型 是 I 型， 用 
于 带 一 个 常数 的 算术 指令 (例如 addi) 以 及 加 载 指令 。I 型 的 字段 如 下 所 示 : 


12 位 5 位 3 位 5 位 7 位 


12 位 immediate 字段 为 补 码 值 ， 所 以 它 可 以 表示 从 -2 到 21-1 之 间 的 整数 。 当 了 I 型 格 
式 用 于 加 载 指令 时 ，immediate 字段 表示 一 个 字 节 偏 移 量 ， 所 以 加 载 双 字 指令 可 以 取 相 对 于 
基 址 寄存 器 rd 中 基地 址 偏 移 + (2 或 2048 ) 字 节 ( + (2 或 2$6) 个 双 字 ) 的 任何 双 字 。 
我 们 发 现 ， 超 过 32 个 寄存 器 在 这 种 格式 下 使 用 起 来 会 很 困难 ， 因 为 rd 和 rsl 字段 都 需要 增 
添 额 外 的 一 位 ， 这 导致 一 个 字 是 不 够 的 。 

让 我 们 分 析 一 下 2.3.1 节 提 到 的 加 载 寄 存 器 指令 

1d x9, 64(x22) // Temporary reg x9 gets A[8] 


这 里 ，22( x22) 存放 在 rsl 字段 中 ，64 存放 在 immediate 字段 中 , 9 ( x9) 存放 在 rd 字 
段 中 。 我 们 还 需要 一 个 存储 双 字 指令 sd 的 指令 格式 ， 它 需要 两 个 源 寄存 器 (用 于 基 址 和 存 
储 数 据 ) 和 一 个 用 于 地 址 偏 移 量 的 immediate 字段 。S 型 的 字段 如 下 所 示 : 

7 位 5 位 ”5 位 3 位 5 位 7 位 

S 型 格式 的 12 位 immediate 字段 分 成 了 两 个 字段 ， 低 5 位 和 高 7 位 。RISC-V 体系 结构 
设计 师 选 择 这 种 设计 是 因为 它 能 够 在 所 有 指令 格式 中 保持 rsl 和 rs2 字段 在 相同 的 位 置 。 保 
持 尽 可 能 相似 的 指令 格式 降低 了 硬件 的 复杂 性 。 同 样 ，opcode 和 funct3 字段 也 总 是 保持 同样 
的 大 小 并 在 同一 个 位 置 。 

指令 格式 通过 操作 码 字 段 中 的 值 来 区 分 : 每 个 格式 在 第 一 个 字段 (opcode) 中 被 分 配 了 
一 组 不 同 的 操作 码 值 ， 以 便 硬件 知道 如 何 处 理 指令 的 其 余部 分 。 图 2-5 显示 了 迄今 为 止 涉 及 
的 所 有 RISC-V 指令 在 每 个 字段 中 的 值 。 


ee 


| add (add) 0000000| reg reg 000 | reg i 

| sub (sub) R |0100000| reg | reg 000 | reg | 0110011 

图 2-5 RISC-V 指令 编码 。 这 里 “reg” 表 示 0 至 31 之 间 的 寄存 器 编号 ,，“ address ”表示 
12 位 地 址 或 常量 。funct3 和 funct7 字段 充当 附加 的 操作 码 字 段 
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es 
| addi (add immediate) constant reg reg | 0010011 
1d (load doubleword) address reg 0000011 

8 令 immed- immed- 
sd (store doubleword) address 0411 |address| 0100011 


图 2-5 ( 续 ) 


| 例题 | 将 RISC-V 汇编 语言 翻译 为 机 器 语言 a 
现在 我 们 可 以 举 一 个 例子 来 描述 从 程序 员 编 写 程序 到 计算 机 执行 指令 的 整个 过 程 。 假 设 
数组 A 的 基 址 存放 于 x10，h 存放 于 x21， 则 赋值 语句 : 
AL30] = 和 AL30) 二 -下 


被 编译 成 : 
1d x9, 240(x10) // Temporary reg x9 gets A[30] 
add x9, Xx21, x9 // Temporary reg x9 gets h+A[30] 
addi x9, x9, 1 // Temporary reg x9 gets h+A[30]+1 
sd x9, 240(x10) // Stores h+A[30]+1 back into A[30] 
这 三 条 指令 的 RISC-V 机 器 语言 代码 是 什么 ? 
| 答案 | 为 了 方便 起 见 ， 我 们 首先 使 用 十 进 制 数 来 表示 机 器 语言 指令 。 从 图 2-5 中 ,我 们 可 
以 确定 三 条 机 器 语言 指令 : 


































































































immediate | rsi | funct3 rd opcode 
240 10 3 9 3 
funct7 rs2 rsi | funct3 rd opcode | 
0 9 21 0 9 S41 
immediate rs1i funct3 rd opcode 
1 9 0 9 19 
immediate[11:5] rs2 rs1 funct3 immediate[4:0] opcode 
pr 9 10 3 16 35 


指令 由 操作 码 字段 中 的 值 3 ( 见 图 2-5 ) 和 funct3 字段 中 的 值 3 共同 标识 。 基 址 寄存 

器 10 rsl 字段 中 指定 ， 目 标 寄存 器 9 在 rd 字段 中 指定 。 用 于 选 定 A[30] (240 = 30x8) 
的 偏 移 量 存放 在 immediate 字段 中 。 

接 下 来 的 add 指令 由 操作 码 字 段 中 的 值 51、funct3 字段 中 的 值 0 和 funct7 字段 中 的 值 
0 共同 指定 。 三 个 寄存 器 操作 数 ( 9、21 和 9 ) 存放 于 rd、rsl 和 rs2 字段 中 。 

随后 的 addi 指令 由 操作 码 字 段 中 的 值 19 和 funct3 字段 中 的 值 0 共同 决定 。 寄 存 器 操 
作 数 (9 和 9 ) 存放 在 rd 和 rsl 字段 中 ， 常 量 加 数 1 存放 于 immediate 字段 中 。 

sd 指令 由 操作 码 字 段 中 的 值 33 和 funct3 字段 中 的 值 3 共同 标识 。 寄 存 器 操作 数 (9 
和 10) 分 别 存放 于 rs2 和 rsl 字段 中 。 地 址 偏 移 量 240 分 开 存放 于 两 个 immediate 字段 之 
中 。 由 于 高 位 的 immediate 字段 已 经 包含 了 低 5 位 的 值 ， 所 以 可 以 通过 除 以 2 来 分 解 偏 移 量 
240。 则 高 位 的 immediate 字段 存储 除 以 25 的 商 7， 低 位 的 immediate 字段 存储 余数 16。 

因为 240 = 0000 1111 0000:， 所 以 与 上 述 十 进 制 对 应 的 二 进 制 机 器 指令 如 下 所 示 : 
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| immediate rs1 | funct3 | rd | opcode 
000011110000 01010 011 01001 0000011 
| funct7 rs2 rs1 | funct3 rd opcode | 
0000000 01001 10101 000 01001 0110011 
| immediate | rs1 | funct3 rd opcode 
000000000001 01001 000 01001 0010011 
immediate[11:5] rs2 | Tsd | 和 net3 immediate[4:0] opcode 
0000111 01001 01010 QE 10000 0100011 





| 详细 阐述 在 处 理 常 量 时 ，RISC-V 汇编 语言 程序 员 不 会 被 强迫 使 用 addi。 程 序 员 只 需 
简单 地 写 上 一 个 add， 根 据 操作 数 是 否 都 取 自 寄存 器 (及 型 ) 或 有 一 个 操作 数 是 常量 (I 型 )， 
汇编 器 就 能 生成 正确 的 操作 码 和 指令 格式 。 我 们 在 RISC-V 中 对 于 不 同 的 操作 码 和 指令 格式 
使 用 显 式 名 称 ， 这 样 使 得 在 引入 汇编 语言 和 机 器 语言 时 不 会 混淆 

| 胰 王 责 述 虽然 RISC-V 同时 具有 add 和 Sub 指令， 但 它 并 没有 与 addi 相对 应 的 
Subi 指令 。 因 为 immediate 字段 表示 的 是 二 进 制 补 码 整 数 ， 所 以 addi 可 以 用 来 做 常数 减法 。 

[看 伴 内 软件 接 回 保持 所 有 指令 长 度 相 同 的 需求 与 设置 尽 可 能 多 的 寄存 器 的 需求 相 矛 盾 。 
任何 增加 的 寄存 器 数量 都 会 让 指令 格式 的 每 个 寄存 器 字段 至 少 增加 一 位 。 鉴 于 这 些 约束 和 更 
少 则 更 快 的 设计 原则 ， 如 今 的 大 多 数 指令 系统 体系 结构 都 是 设置 16 或 32 个 通用 寄存 器 。 

图 2-6 总 结 了 本 节 中 描述 的 RISC-V 机 器 语言 的 各 个 部 分 。 正 如 我 们 将 在 第 4 章 中 所 看 
到 的 ， 相 关 指 令 的 二 进 制 表示 的 相似 性 简化 了 硬件 设计 。 这 些 相 似 之 处 是 RISC-V 体系 结构 
中 规整 性 的 另 一 个 实例 。 


R 型 指令 funct7 rs2 rs1 funct3 rd opcode 


add (add) | oo0o0000| 00011 | oo010| 000 | oooo1 | 0110011| add x1，x2，x3 
sub (sub) 0100000| 00011 | 00010| 000 | 00001|0110011| sub xl1，x2，x3 














| 型 指令 immediate | funct3 | opcode 











addi (add immediate) | 001111101000 |00010 | 000 00001 | 0010011| addi xl, x2, 1000 | 
ld (load doubleword) | 001111101000 |00010 | 011 00001| 0000011| 1d xl1，1000 (x2) 




















immed- 

iate 

sd (store doubleword) | 0011111| 00001 | 00010 011 01000 | 0100011 | sd xl1，1000(x2) 

图 2-6 2.5 节 介 绍 的 RISC-V 体系 结构 。 目 前 为 止 介绍 的 三 种 RISC-V 指令 格式 是 R 型 、I 
型 和 S 型 。R 型 格式 有 两 个 源 寄 存 器 操作 数 和 一 个 目标 寄存 器 操作 数 。I 型 格式 用 一 
个 12 位 的 immediate 字段 替换 了 一 个 源 寄存 器 操作 数 。S 型 格式 有 两 个 源 操作 数 和 
一 个 12 位 的 immediate 字段 ， 但 没有 目标 寄存 器 操作 数 。S$ 型 的 immediate 字段 分 
为 两 部 分 ， 最 左边 的 字段 是 11 一 5 位 ， 最 右边 的 字段 是 4 一 0 位 


funct3 
































| 重点 当前 的 计算 机 构建 基于 两 个 关键 原则 : 

1. 指令 由 数字 形式 表示 。 

2. 程序 和 数据 一 样 保存 在 存储 器 中 来 进行 读 写 。 

这 些 原则 引出 了 “存储 程序 ”的 概念 ， 这 一 发 明 让 计算 机 突破 了 瓶颈 。 图 2-7 展示 了 这 
个 概念 的 力量 。 具 体 而 言 ， 存 储 器 可 以 存储 一 个 编辑 器 程序 的 源 代 码 、 相 应 的 编译 后 的 机 器 
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代码 、 编 译 程序 正在 使 用 的 文本 ， 甚 至 是 生成 机 器 代码 的 编译 器 。 


编辑 器 程序 的 
C 语 言 源 代 码 





图 2-7 存储 程序 概念 。 存 储 程序 可 以 让 一 台 执 行 记 账 的 计算 机 在 上 是 眼 之 间 变 成 帮助 作者 写 
作 的 计算 机 。 只 需 将 程序 和 数据 加 载 到 存储 器 ， 然 后 告诉 计算 机 在 存储 器 中 的 给 定 
位 置 开 始 执行 ， 就 可 以 实现 这 种 功能 切换 。 采 用 与 处 理 数据 相同 的 方式 处 理 指令 极 
大 地 简化 了 存储 器 硬件 和 计算 机 系统 软件 。 具 体 来 说 ， 针 对 数据 的 存储 器 技术 也 可 
以 用 于 程序 ， 例 如 编译 器 等 程序 可 以 将 方便 人 类 使 用 的 符号 编码 翻译 成 计算 机 可 以 
理解 的 代码 


将 指令 作为 数据 的 一 个 结果 就 是 程序 经 常 以 二 进 制 数据 文件 的 形式 来 发 布 。 商 业 上 的 意 
义 是 计算 机 可 以 继承 (已 有 的 ) 与 指令 系统 体系 结构 兼容 的 软件 。 这 种 “二 进 制 兼容 性 ” 通 
常会 导致 行业 围绕 少数 几 个 指令 系统 体系 结构 形成 联盟 。 





2.6 ”逻辑 操作 “ 正 相反 ,” 叮 当 弟 接着 说 ， 


Ce pe a “如 果 那 是 真 的 ， 那 就 是 
尽管 最 初 计算 机 只 对 整 字 进行 操作 ， 但 人 们 很 快 发 现 ， 在 一 个 “| 亲生 兽 是 交 人 


字 内 对 几 个 位 构成 的 字段 甚至 是 对 单个 位 进行 操作 都 是 十 分 有 用 的 。 | 它 就 是 曾经 为 真 过 ; 但 是 
检查 一 个 字 中 每 个 由 8 位 组 成 的 字符 就 是 一 个 例子 ( 见 2.9 节 )。 随 | 婚 然 现在 它 不 是 真 的 ， 那 
之 而 来 的 是 ， 人 们 在 编程 语言 和 指令 系统 体系 结构 中 添加 了 一 些 操 人 入 本 
作 ， 用 于 简化 打包 或 者 拆 包 。 这 些 指令 被 称 为 逻辑 操作 。 图 2-8 显 | ws Cory 是 而 
示 了 C、Java 和 RISC-V 中 的 逻辑 运算 。 温 游 仙 嫉 ，1805 
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逻辑 操作 C 操 作 符 | Java 操 作 符 









































左 移 << Rk 
右 移 >> 小 > 
算术 右 移 >> | | grad 
按 位 与 dE & & and, andi 
按 位 或 | | Os i | 
按 位 异 或 ^ ^ xor , xori 
按 位 取 反 村 ee xori 











图 2-8 C 和 Java 中 的 逻辑 操作 符 及 其 对 应 的 RISC-V 指令 。 实 现 NOT 的 一 种 方法 是 使 用 
XOR， 其 中 一 个 操作 数 为 全 1 (FFFF FFFF FFFF FFFFe ) 


第 一 类 操作 称 为 移 位 。 一 个 双 字 中 的 所 有 位 都 向 左 或 向 右 移 ， 用 0 填充 空 出 来 的 位 。 例 
如 ， 如 果 寄 存 器 x19 中 的 值 为 : 

00000000 00000000 00000000 00000000 00000000 00000000 00000000 00001001; 
并 且 指 令 让 它 左 移 4 位 ， 那么 新 的 值 为 : 

00000000 00000000 00000000 00000000 00000000 00000000 00000000 10010000; = 14410 
对 应 于 左 移 的 是 右 移 。 这 两 条 RISC-V 移 位 指令 的 实际 名 称 是 左 移 逻辑 立即 数 (S11i) 和 右 
移 逻 辑 立 即 数 ( sr1i )。 假设 初始 值 位 于 寄存 右 x19 中 且 结 果 应 存 人 寄存 器 X11， 则 以 下 指 
令 执行 上 述 操作 : 

Sil Xl XI9. 4 A Peg ll = reg Ki9 < 4 bits 
这 些 移 位 指令 使 用 I 型 格式 。 因 为 它 不 适用 于 对 一 个 64 位 寄存 器 移动 大 于 63 位 的 操作 ， 只 
有 1 型 格式 中 12 位 的 immediate 字段 中 的 低 6 位 被 实际 使 用 。 其 余 的 6 位 被 重新 用 作 额 外 的 
操作 码 字 段 ， 即 funct6。 

funct6 immediate rs1i funct3 rd opcode 
| 0 | 4 | 19 | 11 | 19 

sl11i 的 编码 在 opcode 字 段 为 19,，rd 字 段 为 11，funct3 字 段 为 1, rsl 字 段 为 19， 
immediate 字段 为 4，funct6 字段 为 0。 

逻辑 左 移 提供 了 另外 一 个 好 处 。 左 移 i 位 相当 于 乘 以 2， 就 像 是 十 进 制 数 左 移 i 位 相当 
于 乘 以 10 一样 。 例 如 ， 上 述 s11i 左 移 4 位 ， 相 当 于 乘 以 16 ( 2+)。 上 面 的 第 一 个 二 进 制 。 
表示 9, 并 且 9x16 = 144， 刚 好 是 第 二 个 二 进 制 的 值 。RISC-V 提供 了 第 三 种 类 型 的 移 位 指 
邻 一 一 算术 右 移 (srai)。 这 个 变 体 与 sr1i 很 相似 ,但 它 不 是 用 零 填 充 空 出 的 左边 的 位 ， 
而 是 用 原来 的 符号 位 来 填充 。 它 还 提供 了 三 个 移 位 操作 的 变 体 : s11、sr1 和 sra。 它 们 从 
寄存 器 中 取出 移 位 的 位 数 ， 而 不 是 从 立即 数 中 。 

男 外 一 个 有 用 的 操作 是 与 ( AND)。( 我 们 把 这 个 词 大 写 来 避免 操作 和 英文 连接 词 之 间 的 
混淆 。) AND 是 按 位 操作 的 ， 只 有 当 两 个 操作 数 的 位 都 是 1 时 ， 结 果 才 是 1。 例 如 ， 如 果 寄 
存 器 X11 中 的 值 为 : 

00000000 00000000 00000000 00000000 00000000 00000000 00001101 11000000， 


寄存 器 x10 的 值 为 : 


91o 











日 寄存 器 x19 中 的 值 。 一 一 译 者 注 
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00000000 00000000 00000000 00000000 00000000 00000000 00111100 00000000; 
那么 ， 在 执行 RISC-V 指令 之 后 : 


ad-X9 TIO， Ll // reg x9 = reg x10 & reg x1l 


寄存 器 x9 的 值 为 : 
00000000 00000000 00000000 00000000 00000000 00000000 00001100 00000000; 
如 你 所 见 ，AND 可 以 在 源 操作 数 的 某 些 位 为 0 时 ， 将 结果 数 的 对 应 位 设 为 0。 这 种 和 AND 
联合 使 用 的 源 操作 数 习 惯 上 被 称 为 掩 码 ， 因 为 掩 码 隐藏 了 某 些 位 。 
为 了 将 一 个 值 放 入 到 一 大 堆 0 当 中， 存在 一 个 与 AND 相对 应 
的 操作 ， 称 为 或 (OR)。 这 是 一 个 按 位 操作 ， 如 果 任 一 操作 数 的 位 为 
1， 则 结果 的 对 应 位 为 1。 为 了 详细 说 明 ， 如 果 寄 存 器 x10 和 x11 
中 的 值 与 上 例 一 样 ， 则 RISC-V 指令 的 结果 : 
oF x9 X10 有 EX9 = reg X10 | reg xl1 


是 寄存 器 x9 中 的 这 个 值 : 


00000000 00000000 00000000 00000000 00000000 00000000 
00111101 11000000; 


最 后 一 个 逻辑 操作 是 按 位 取 反 (NOT)。NOT 只 有 一 个 操作 数 ， 如 
果 操 作 数 中 的 某 位 为 0， 那么 它 将 结果 的 对 应 位 设 为 0， 反 之 亦 然 。 
使 用 我 们 以 前 的 符号 ， 它 计算 x。 

为 了 保持 三 操作 数 格式 ，RISC-V 的 设计 者 决定 引入 指令 XOR 
( 异 或 ) 来 取代 NOT。 因 为 异 或 是 在 两 个 操作 数 对 应 位 相同 时 设 0， 
不 同时 设 1， 所 以 NOT 等 价 于 异 或 111...111。 

如 果 寄 存 器 x10 的 值 和 上 例 一 样 ， 寄 存 器 x12 的 值 为 0， 则 
RISC-V 指令 的 结果 : 


区 OF XA, KIO, Xl2 I/ reg 9 


是 寄存 器 x9 中 的 这 个 值 : 
00000000 00000000 00000000 00000000 00000000 00000000 00110001 11000000; 


上 面 的 图 2-8 显示 了 C 和 Java 操作 符 与 RISC-V 指令 之 间 的 关系 。 常 量 在 逻辑 运算 和 算 
术 运 算 中 都 很 有 有 用， 所 以 RISC-V 还 提供 了 立即 数 与 (andi )、 立 即 数 或 (ori) 和 立即 数 异 
过 (XoOri)s 

[ 吁 氏 羡 通 | C 允许 在 双 字 中 定义 “位 字段 ”或 “字段 "， 它 们 都 允许 将 对 象 打包 在 双 字 
中 ， 并 匹配 外 部 强制 接口 (如 IO 设备 )。 所 有 字段 必须 适用 于 单个 双 字 。 字 段 是 无 符号 整 
数 并 可 以 短 至 1 位 。C 编译 器 使 用 RISC-V 中 的 逻辑 指令 来 插入 和 提取 字段 : andi、ori、 
slli srlis 


AND : 两 个 操作 数 的 加 
辑 按 位 操作 ， 只 有 在 两 个 
操作 数 中 的 对 应 位 都 是 1 
时 ， 结 果 的 对 应 位 才 是 1。 


OR : 两 个 操作 数 的 逻辑 
按 位 操作 ， 如 果 两 个 操作 
数 中 的 对 应 位 有 一 个 为 1， 
则 结果 的 对 应 位 为 1。 


NOT : 一 个 操作 数 的 逻 
辑 按 位 取 反 操作 ， 也 即 是 
说 ， 把 每 个 1 替换 为 0， 
把 每 个 0 替换 为 1。 


XOR : 两 个 操作 数 的 逻 
辑 按 位 操作 ， 用 于 计算 两 
个 操作 数 的 异 或 。 也 就 是 
说 ， 只 有 两 个 操作 数 的 对 
应 位 不 同时 ， 它 才 会 计算 
为 1。 





自我 检测 “下面 哪个 操作 
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2.7 用 于 决策 的 指令 


计算 机 与 简单 计算 器 的 区 别 在 于 它 的 决策 能 力 。 根 据 输入 数据 
和 计算 中 产生 的 值 执行 不 同 的 指令 。 在 编程 语言 中 ， 通 常 使 用 证 语 
句 来 表示 决策 ， 有 时 让 语句 也 会 和 go to 语句 以 及 标签 结合 使 用 。 
RISC-V 汇编 语言 包含 两 个 决策 类 指令 ， 类 似 于 带 go to 的 让 语句 。 
第 一 条 指令 是 : 

Det PsL, reas Ll 


该 指令 表示 如 果 寄 存 器 rsl 中 的 值 等 于 寄存 器 rs2 中 的 值 ， 则 转 
到 标签 为 L1 的 语句 执行 。 助 记 符 beq 代表 相等 则 分 支 。 第 二 条 指 
令 是 : 

bne rsl, rses Ll 
该 指令 表示 如 果 寄 存 器 sl 中 的 值 不 等 于 寄存 需 rs2 中 的 值 ， 则 转 
到 标签 为 L1 的 语句 执行 。 助 记 符 bne 代表 不 等 则 分 支 。 这 两 条 指 
令 通 常 称 作 条 件 分 支 指令 。 


| 例题 | 将 if-then-else 语句 编译 为 条 件 分 支 指令 


自动 计算 机 的 实用 性 在 于 
重复 使 用 给 定 的 指令 序列 
的 可 能 性 ， 其 重复 次 数 取 
决 于 计算 结果 。 这 种 选择 
取决 于 数 的 符号 (0 被 机 
器 认为 是 正 数 )。 因 此 ， 我 
们 引入 了 一 条 “指令 ”( 条 
件 传输 “指令 ”)， 该 指令 
将 根据 给 定数 的 符号 来 从 
两 条 路 径 中 选择 正确 的 一 
个 执行 。 

Burks Goldstine 和 von 
WNWeumann, /1/947 


条 件 分 支 指 令 : 一 条 指令 ， 
先 检 测 一 个 值 ， 然 后 根据 检 
测 结 果 允 许 后 续 控制 流转 
移 到 程序 中 的 一 个 新 地 址 。 





在 下 面 的 代码 段 中 , f、g、h、i 和 j 是 变量 。 如 果 五 个 变量 f 到 j 对 应 于 x19 到 
x23 这 5 个 寄存 器 ， 这 个 C 语言 的 证 语句 编译 后 的 RISC-V 代码 是 什么 ? 


if (i == j) f=g+h; else f=g—h; 


| 答案 | 图 2-9 显示 了 RISC-V 代码 应 该 执行 的 操作 的 流程 图 。 第 一 个 表达 式 比较 寄存 器 中 两 
个 变量 是 否 相 等 。 如 果 i 和 j 相等 则 跳 转 ， 那 么 需要 一 条 beq 指令 。 一 般 来 说 ， 如 果 我 们 
测试 相反 的 条 件 来 进行 跳 转 ， 代 码 将 更 有 效率 ， 那 么 需要 一 条 bne 指令 。 代 码 如 下 : 


bne x22, x23, Else 


A ol Go ElSE 相生 和 渗 当 





图 2-9 上 述 让 语句 的 操作 流程 图 。 左 边 方 框 对 应 这 语句 的 then 部 分 ， 右 边 方 框 对 应 else 部 分 
下 一 个 赋值 语句 执行 单个 操作 ， 并 且 如 果 所 有 操作 数 都 分 配给 了 寄存 器 ， 则 它 只 是 一 条 指令 : 


add %19, 2 KZ1 /二 


现在 看 看 让 语句 的 结尾 部 分 。 本 例 引 入 了 男 一 种 分 支 ， 通常 称 为 无 条 件 分 文 。 该 指令 表示 在 
遇 到 该 指令 时 ， 程 序 必须 分 支 。 在 RISC-V 中 表达 无 条 件 分 支 的 一 种 方法 是 使 用 条 件 始终 为 
真 的 条 件 分 支 : 


beq X0，X0，EXit Yi if == 0 G0 te EXit 


站 语句 的 else 部 分 中 的 赋值 语句 可 以 再 次 编译 成 单一 指令 。 我 们 只 需要 在 该 指令 中 附加 标签 


E1se。 另 外 , 在 该 指令 之 后 还 需 Exit 标签 ， 表 示 让 then-else 编译 后 的 代码 结束 : 


Else:sub x19, x20, X21 l/! f=g— hi(skipped if i = j) 
Exit 





注意 ， 就 像 汇 编 器 计算 load 和 store 的 数据 地 址 一 样 ， 它 也 会 计算 分 支 目 标 地 址 ， 这 组 
解 了 编译 器 和 汇编 语言 程序 员 计算 分 支 地 址 的 枯燥 工作 ( 见 2.12 节 )。 

| 硬 俯 7 较 御 接 加 | 编译 器 经 常 产生 分 支 和 标签 ， 但 它们 在 编程 语言 中 并 不 出 现 。 使 用 
高 级 编程 语言 编程 的 好 处 之 一 是 可 以 避免 编写 显 式 标签 和 分 支 ， 这 也 是 其 编码 速度 更 快 的 
原因 。 


2.7.1 循环 
对 于 二 选 一 的 让 语句 和 循环 中 的 迭代 计算 ,决策 都 是 十 分 重要 的 。 而 且 在 这 两 种 情况 
下 ,汇编 语言 指令 都 是 相同 的 。 
| 例题 | 编译 一 个 C 语言 的 while 循环 . 
下 面 是 一 个 C 语言 的 常见 循环 : 


while (save[i] == k) 





1 es 


假设 i 和 对 应 于 寄存 器 x22 和 x24， 数 组 的 基 址 保存 在 x25 中 。 与 此 C 语言 代码 相对 应 
的 RISC-V 汇编 代码 是 什么 ? 

| 答案 | 第 二 步 是 将 save[i] 加 载 到 临时 寄存 器 中 。 在 将 save[i] 加 载 到 临时 寄存 器 之 
前 ， 需 要 得 到 它 的 地 址 。 在 将 i 加 到 数组 save 的 基 址 以 形成 地 址 之 前 ， 由 于 字 节 寻 址 问 
题 ， 必 须 将 索引 i 乘 以 8。 幸 运 的 是 ,我 们 可 以 使 用 左 移 ， 因 为 左 移 3 位 相当 于 乘 以 2 或 8 
(参见 上 一 节 )。 我 们 需要 给 指令 添加 标签 Loop ， 以 便 我 们 可 以 在 循环 结尾 跳 转 回 该 指令 : 


[0 0 7 Lem rey LD 1 
要 获得 save[i] 的 地 址 ,我 们 需要 将 x10 和 保存 在 x25 中 的 基 址 相 加 : 
add x10, x10, x25 // x10 = address of save[i] 
现在 我 们 可 以 利用 这 个 地 址 将 save[i] 加 载 到 临时 寄存 器 了 : 
ld OCX) /Temp reg x9 = saveli] 
下 一 条 指令 将 进行 循环 判断 ， 如 果 save[i] # k 则 退出 ; 
phe X99, X24 Exit /1 90 to Exit 1f saveLt] 去 小 
接 下 来 的 指令 将 i 加 1: 
dd X22 XE 1 J 
循环 的 结尾 回 到 循环 项 部 的 while 判断 。 我 们 只 需 在 它 后 面 添 加 Exit 标签 : 
beq x0, x0, Loop i gg6 to Loop 
Ex 


( 见 自 我 检测 中 对 该 指令 序列 的 优化 。) 
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| 硬件 7 软件 接 百 这 种 以 分 支 结 尾 的 指令 序列 对 于 编译 来 说 非 | 基本 块 : 一 个 没有 分 支 的 
常 基 础 ， 它 们 有 专门 的 术语 : 基本 块 。 基 本 块 指 的 是 指令 序列 : 除 | 指令 序列 (除了 可 能 在 结 
了 在 指令 序列 的 结尾 ， 序 列 中 没有 分 支 ; 以 及 除了 在 序列 起 始 处 ， 0 
序列 中 没有 分 支 目标 和 分 支 标签 。 编 译 的 基础 工作 之 一 就 是 将 程序 | 直 志 处) 
划分 为 基本 块 。 

对 相等 或 不 相等 的 判断 可 能 是 最 常见 的 判断 ， 但 也 有 很 多 其 他 两 个 数 之 间 的 关系 。 例 
如 , for 循环 可 能 需要 判断 下 标 变量 是 否 小 于 0。 完 整 的 相互 关系 有 小 于 (<)、 小 于 等 于 (<)、 
大 于 (>)、 大 于 等 于 (= )、 相 等 (=)、 不 等 于 ( 郑 )。 

位 模式 的 比较 还 必须 处 理 有 符号 和 无 符号 数 之 间 的 差别 。 有 时 候 ， 最 高 有 效 位 是 1 代表 
一 个 负数 ， 当 然 ， 它 小 于 任何 正 数 (最 高 有 效 位 是 0 )。 另 一 方面 ， 对 于 无 符号 整数 ， 最 高 有 
效 位 是 1 表示 大 于 任何 最 高 有 效 位 是 0 的 数 。( 我 们 很 快 将 利用 最 高 有 效 位 的 这 种 双重 含义 来 
降低 数组 边界 检查 的 成 本 。) RISC- V 提供 了 指令 来 处 理 这 两 种 情况 。 这 些 指令 与 beq 和 bne 
具有 相同 的 形式 ， 但 是 执行 不 同 的 比较 。 小 于 则 分 支 指令 ( blt) 比较 寄存 器 rsl 和 rs2 中 的 
值 (采用 二 进 制 补 码 表示 )， 如 果 rsl 中 的 值 较 小 则 跳 转 。 大 于 等 于 分 支 (bge) 指令 是 相反 
情况 ， 也 就 是 说 ， 如 果 rsl 中 的 值 至 少 不 小 于 rs2 中 的 值 则 跳 转 。 无 符号 的 小 于 则 分 支 指令 
(bltu) 意味 着 ， 如 果 二 者 是 无 符号 数 ， 那 么 rsl 中 的 值 小 于 rs2 中 的 值 则 跳 转 。 最 后 ， 无 符 
号 数 的 大 于 等 于 则 分 支 指令 (bgeu) 在 相反 的 情况 下 跳 转 。 

另 一 种 提供 这 些 额外 分 支 指令 的 方法 是 根据 比较 结果 设置 寄存 器 ， 然 后 使 用 beq 或 
bne 指令 根据 该 临时 寄存 器 中 的 值 来 进行 分 支 判断 。 这 种 由 MIPS 指令 系统 使 用 的 方法 可 以 
使 处 理 器 数据 通路 稍微 简单 一 些 ， 但 它 需 要 更 多 指令 来 表达 程序 。 

ARM 指令 系统 使 用 的 另 一 种 方法 是 ， 保 留 额 外 的 位 来 记录 指令 执行 期 间 发 生 的 情况 。 
这 些 人 额外 的 位 称 为 条 件 代码 或 标志 位 ， 用 于 表明 例如 算术 运算 的 结果 是 否 为 负数 或 零 ， 或 
溢出 。 

条 件 分 支 利用 这 些 条 件 代码 的 组 合 来 执行 期 望 的 判断 。 

条 件 代码 的 一 个 缺点 是 ， 如 果 许 多 指令 总 是 设置 它们 ， 则 会 生成 让 流水 线 执行 困难 的 依 
赖 关系 (参见 第 4 章 )。 


2.7.2 边界 检查 的 简便 方法 


将 有 符号 数 当 作 无 符号 数 处 理 ， 给 我 们 提供 了 一 种 低 成 本 的 方式 检查 是 否 0 < x <y， 常 
用 于 检测 数组 下 标 是 否 越界 。 关 键 在 于 二 进 制 补 码 表示 中 的 负 整数 看 起 来 像 无 符号 表示 中 很 
大 的 数 ; 因为 最 高 有 效 位 在 有 符号 数 中 表示 符号 位 ， 但 在 无 符号 数 中 表示 数 的 很 大 一 部 分 。 
因此 ， 无 符号 比较 x<y 在 检测 x 是 否 小 于 yy 的 同时 ， 也 检测 了 x 是 否 为 负数 。 


| 例题 | a 
利用 该 简便 方法 可 以 降低 下 标 越 界 检查 的 开销 : 如 果 x20 = x11 或 x20 是 负数 则 跳 转 

| Index0ut0fBounds, 

| 答案 | 检查 代码 仅 使 用 无 符号 数 的 大 于 或 等 于 来 进行 两 项 检查 : 


bgeu x20, xll, IndexOQutOfBounds // if x20 >= xll or 
x20 < 0, goto Index0Out0fBounds 
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2.7.3 case/switch 语句 


大 多 数 编程 语言 都 包含 case 或 switch 语句 ， 人 允许 程序 员 根据 某 个 值 选择 多 个 分 支 中 的 
一 个 。 实 现 switch 的 最 简单 方法 是 通过 一 系列 的 条 件 测试 ， 将 switch 语句 转换 成 if-then-else 
语句 。 

有 时 ， 男 一 种 更 有 效 的 方法 是 编码 形成 指令 序列 的 地 址 表 ， 称 | 分 支 地 址 表 : 也 称 作 分 支 
为 分 支 地 址 表 或 分 支 表 ， 程 序 只 需要 索引 到 表 中 ， 然 后 跳 转 到 合适 “| 表 ， 一 种 包含 了 不 同 指令 
的 指令 序列 。 因 此 ， 分 支 表 只 是 一 个 双 字数 组 ， 其 中 包含 与 代码 中 上 序列 地 址 的 表 。 

的 标签 对 应 的 地 址 。 该 程序 将 分 支 表 中 的 相应 条 目 加 载 到 寄存 器 中 ， 

然后 需要 使 用 寄存 器 中 的 地 址 进行 跳 转 。 为 了 支持 这 种 情况 ，RISC-V 这 类 指令 系统 包含 一 

个 间接 跳 转 指令 ， 该 指令 对 寄存 器 中 指定 的 地 址 执行 无 条 件 跳 转 。 在 RISC-V 中 ， 跳 转 - 链 

接 指令 (jalr) 用 于 此 目的 。 我 们 将 在 下 一 节 中 看 到 这 种 多 功能 指令 更 多 常见 的 使 用 方式 。 
敬 硬 7 卖 循 搂 国 虽然 在 类 似 C 和 Java 这 样 的 编程 语言 中 有 很 多 决策 和 循环 的 语句 ， 





但 在 指令 系统 级 别 实现 它们 的 基础 语句 是 条 件 分 支 。 





2.8 计算 机 硬件 对 过 程 的 支持 


过 程 (procedure) 或 函数 是 编程 人 员 用 于 结构 化 编程 的 一 种 工 | 过 程 : 一 个 根据 给 定 参数 
具 ， 两 者 均 有 助 于 提高 程序 的 可 理解 性 和 代码 的 可 重用 性 。 过 程 多 | 执行 特定 任务 的 已 存储 的 
许 程序 员 一 次 只 专注 于 任务 的 一 部 分 ; 参数 可 以 传递 数值 并 返回 结 “| 子 程序 。 
果 ， 因 此 用 以 充当 过 程 和 其 余 程序 与 数据 之 间 的 接口 。2.15 节 描述 | Bh 和 _ 链接 指令 ， 吏 村 到 
了 Java 中 过 程 的 等 效 表 示 ， 但 Java 对 计算 机 的 要 求 和 C 完全 相同 。 | 其 个 地 址 的 同时 将 下 一 条 
过 程 是 用 软件 实现 对 蒙 的 一 种 方式 。 指令 的 地 址 保存 在 寄存 器 

可 以 把 过 程 想象 成 一 个 携带 秘密 计划 离开 的 侦探 ， 他 获取 资源 ， 人 
执行 任务 ,掩盖 踪迹 ， 然 后 带 着 预期 结果 返回 原点 。 一 旦 任务 完成 ， i 
则 再 无 任何 干扰 。 更 重要 的 是 ， 侦 探 只 在 “需要 知道 ”的 基础 上 运作 ， 因 此 侦探 不 能 对 雇主 
有 任何 腌 断 。 

同样 ， 在 执行 过 程 时 ， 程 序 必须 遵循 以 下 六 个 步 又 ; 

1. 将 参数 放 在 过 程 可 以 访问 到 的 位 置 。 
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2. 将 控制 转交 给 过 程 。 

3. 获取 过 程 所 需 的 存储 资源 。 

4. 执行 所 需 的 任务 。 

5. 将 结果 值 放 在 调用 程序 可 以 访问 到 的 位 置 。 

6. 将 控制 返回 到 初始 点 ， 因 为 过 程 可 以 从 程序 中 的 多 个 点 调用 。 

如 上 所 述 ， 寄 存 器 是 计算 机 中 访问 数据 最 快 的 存储 位 置 ， 因 此 期 望 尽 可 能 多 地 使 用 它 
们 。RISC-V 软件 为 过 程 调用 分 配 寄存 器 时 遵循 以 下 约定 : 

e X10 ~ x17: 八 个 参数 寄存 器 ， 用 于 传递 参数 或 返回 值 。 

e Xl1: 一 个 返回 地 址 寄存 器 ， 用 于 返回 到 起 始点 。 

除了 分 配 这 些 寄存 器 之 外 ，RISC-V 汇编 语言 还 包含 一 个 仅 用 于 过 程 的 指令 : 跳 转 到 某 
个 地 址 的 同时 将 下 一 条 指令 的 地 址 保存 到 目标 寄存 器 rd。 跳 转 - 链接 指令 (jal) 写作 : 


jal xl，ProcedureAddress // jump to 
ProcedureAddress and write return address to xl 


指令 中 的 链接 部 分 表示 指向 调用 点 的 地 址 或 链接 ， 以 允许 该 过 ”| 返回 地 址 ， 指 向 调用 点 的 
程 返 回 到 合适 的 地 址 。 存 储 在 寄存 器 x1 中 的 这 个 “链接 ”被 称 为 返 | 链接 ， 克 许 过 程 返回 到 合 
回 地址 。 返 回 地 址 是 必需 的 ， 因 为 同一 过 程 可 能 在 程序 的 不 同 部 分 | 适 的 地 址 ; 在 RISC-V 中 
被 调用 。 它 被 存储 在 寄存 器 xX1 中 。 

为 了 支持 这 种 情况 下 的 过 程 返回 ， 类 似 RISC-V 的 计算 机 使 用 


了 间接 跳 转 (如 上 述 跳 转 - 链接 指令 (jalr))， 用 以 处 理 case 语句 | 人 





jl (CE 


正如 所 期 望 的 那样 ， 寄 存 器 跳 转 -链接 指令 跳 转 到 存储 在 寄 | 被 调用 者 : 全 多 全 朋 考 必 
存 器 xl 中 的 地 址 。 因 此 ， 调 用 程序 或 称 为 调用 者 将 参数 值 放 人 Re 
x10 ~ x17 中 ,并 使 用 jal xl1，X 跳 转 到 过 程 X (有 时 称 为 被 调 | 控制 权 返 还 给 调用 者 。 

用 者 )。 被 调用 者 执行 计算 ,将 结果 放 在 相同 的 参数 寄存 器 中 ， 并 使 
用 jalr x0，0(x1) 将 控制 返还 给 调用 者 。 程序 计数 器 : 包含 程序 中 正 

在 存储 程序 概念 中 ， 需 要 一 个 寄存 器 来 保存 当前 执行 指令 的 地 | 在 执行 指令 地 址 的 寄存 器 。 
址 。 由 于 历史 原因 ， 这 个 寄存 器 总 是 被 称 为 程序 计数 器 〈program 
counter) (在 RISC-V 体系 结构 中 缩写 为 PC)， 尽 管 其 更 合理 的 名 称 可 能 是 指令 地 址 寄存 器 。 
jal 指令 实际 上 将 PC + 4 保存 在 其 指定 寄存 器 (通常 为 x1) 中 ， 以 链接 到 后 续 指 令 的 字 节 
地 址 来 设置 过 程 返 回 。 

| 详细 阐述 通过 使 用 x0 作为 目标 寄存 器 ， 跳 转 一 链接 指令 也 可 用 于 实现 过 程 内 的 无 条 
件 跳 转 。 由 于 x0 硬 连 线 为 零 ， 其 效果 是 丢弃 返回 地 址 : 


jal x0, Label // unconditionally branch to Label 


2.8.1 使 用 更 多 的 寄存 器 


假设 对 于 一 个 过 程 ， 编 译 器 需要 比 8 个 参数 寄存 器 更 多 的 寄存 | 术 ，_ 种 被 组 织 成 后 进 先 
器 。 由 于 在 任务 完成 后 必须 掩盖 踪迹 ， 调 用 者 所 需 的 所 有 寄存 器 都 必 | 出 隐 列 并 用 于 寄存 器 换 册 
须 恢复 到 调用 该 过 程 之 前 所 存储 的 值 。 这 种 情况 是 需要 将 寄存 器 换 出 | 的 数据 结构 。 

到 存储 器 中 的 一 个 例子 ， 正 如 2.3.1 节 的 “硬件 /软件 接口 ”部 分 所 述 。 
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换 出 寄存 器 的 理想 数据 结构 是 栈 ( stack) 一 一 一 种 后 进 先 出 的 “| 术 指 针 ， 指 示 烧 中 最新 分 
队列 。 栈 需要 一 个 指向 栈 中 最 新 分 配 地 址 的 指针 ， 以 指示 下 一 个 过 | 配 的 地 址 的 值 ， 用 于 指示 
程 应 该 放置 换 出 寄存 器 的 位 置 或 寄存 器 旧 值 的 存放 位 置 。 在 RISC-V | 它 该 被 提 出 的 寄存 器 的 位 


中 ， 栈 指针 ( stack pointer) 是 寄存 器 xX2 ， 也 称 为 sp。 栈 指针 按照 


置 ， 或 寄存 器 旧 值 的 存放 
位 置 。 在 RISC-V 中 为 寄 


每 个 被 保存 或 恢复 的 寄存 器 按 双 字 进 行 调整 。 栈 应 用 非常 广泛 ， 因 “| 存 器 sp 或 x2。 


而 传送 数据 到 栈 或 从 栈 传输 数据 都 具有 专业 术语 : 将 数据 放 人 栈 中 


称 为 压 栈 ， 从 栈 中 移 除数 据 称 为 弹 栈 。 | 压 酚 : 向 栈 中 添加 元 素 。 


按照 历史 惯例 ， 栈 按照 从 高 到 低 的 地 址 顺序 “增长 ”。 这 就 意 


味 着 可 以 通过 减 栈 指针 将 值 压 栈 ; 通过 增加 栈 指针 缩小 酚 ， 从 而 弹 | 弹 楼 : 从 栈 中 移 除 元 素 


出 栈 中 的 值 。 





| 例题 | 编译 一 个 没有 调用 其 他 过 程 的 C 过 程 
将 2.2 节 的 例题 转化 为 一 个 C 过 程 : 
long long int leaf_example (long long int g, long long 
int h, long long int i, long long int 十 ) 

{ 
16ng Tong mt Ts 
f(g "1 et 
return f; 
} 


编译 后 的 RISC-V 汇编 代码 是 什么 呢 ? 


| 答案 | 参数 变量 g、h、i 和 j 对 应 于 参数 寄存 器 x10、x11、x12 和 x13， 


编译 后 的 程序 从 如 下 过 程 标号 开始 : 


leaf_example: 


f 对 应 于 x20。 


下 一 步 是 保存 该 过 程 使 用 的 寄存 器 。 过 程 体 中 的 C 赋值 语句 与 之 前 的 例题 相同 ， 使 用 两 个 临 
时 寄存 器 (x5 和 x6)。 因 此 ， 需 要 保存 三 个 寄存 器 : x5 、x6 和 x20。 通 过 在 栈 中 创建 三 个 


双 字 ( 24 字 节 ) 空间 并 将 数据 存 人 ， 实 现 将 旧 值 “ 压 ”入 栈 中 : 


addi SP Sp =24 // adjust stack to make room for 3 items 
sd x5 16tsp) // save register x5 for use afterwards 
sd x6, 8(sp) // save register x6 for use afterwards 
sd x20, OQ(€sp) // save register x20 for use afterwards 
图 2-10 展示 了 过 程 调用 之 前 、 之 中 和 之 后 栈 的 情况 。 
高 地 址 
SP 一 
低地 址 a) 





图 2-10 过 程 调用 之 前 (a)、 之 中 (b) 和 之 后 (c) 栈 指 针 以 及 栈 的 值 。 栈 指针 总 是 指向 栈 


“ 顶 ”， 或 者 图 中 栈 的 最 后 一 个 双 字 
以 下 三 条 语句 对 应 于 2.2 节 例 题 后 的 过 程 体 : 





add x5, x10 六 1 // register x5 contains g + h 
add x6, xl2, x13 J reoister 6 corntains i J 
sub x20, x5, x6 i 


为 了 返回 和 的 值 ， 将 其 复制 到 一 个 参数 寄存 器 中 : 
15 
在 返回 之 前 ， 通 过 从 栈 中 “弹出 ”数据 来 恢复 寄存 器 的 三 个 旧 值 : 


区 205 Osp) // restore register x20 for caller 
ld 6 BSD // restore register x6 for caller 
ld wh T6(S0) // restore register x5 for caller 
addi sp, sp, 24 // adjust stack to delete 3 items 


通过 一 个 使 用 返回 地 址 的 跳 转 寄存 器 结束 过 程 : 


aT 0 OCxL) // branch back to calling routine 








先前 示例 使 用 了 临时 寄存 器 ， 并 假设 其 旧 值 必须 被 保存 和 恢复 。 为 了 避免 保存 和 恢复 一 
个 其 值 从 未 被 使 用 过 的 寄存 器 (通常 为 临时 寄存 器 )，RISC-V 软件 将 19 个 寄存 器 分 成 两 组 : 
e X5 ~ X7 以 及 x28 ~ x31: 临时 寄存 器 ， 在 过 程 调用 中 不 被 被 调用 者 (被 调用 的 过 程 ) 
保存 。 
e@ X8 ~ x9 以 及 x18 ~ x27 : 保存 寄存 器 (saved register)， 在 过 程 调用 中 必须 被 保存 。 
(一 旦 使 用 ， 由 被 调用 者 保存 并 恢复 ) 
这 一 简单 约定 减少 了 寄存 器 换 出 。 在 上 述 例子 中 ， 由 于 调用 者 不 希望 在 过 程 调用 中 保存 
寄存 器 Xx5 和 x6， 可 以 从 代码 中 去 掉 两 次 存储 和 两 次 载 和 人。 但 仍 须 保存 并 恢复 x20， 因 为 被 
调用 者 必须 假设 调用 者 需要 该 值 。 


2.8.2 ”内 套 过 程 


不 调用 其 他 过 程 的 过 程 称 为 叶子 ( leaf) 过 程 。 如 果 所 有 过 程 都 是 叶子 过 程 ， 情 况 将 会 变 
得 简单 ， 但 事实 并 非 如 此 。 正 如 一 个 侦探 任务 的 一 部 分 可 能 是 雇佣 其 他 侦探 一 样 ， 被 雇佣 的 侦 
探 进而 雇佣 更 多 的 侦探 ， 过 程 调用 其 他 过 程 也 是 如 此 。 更 进一步 ， 递 归 过 程 甚至 调用 的 是 自身 
的 “克隆 ”。 就 像 在 过 程 中 使 用 寄存 器 时 需要 小 心 一 样 ， 在 调用 非 叶 子 过 程 时 必须 更 加 注意 。 

例如 ， 假 设 主 程序 调用 过 程 A， 人 参数 为 3， 将 值 3 存 人 寄存 器 x10 然后 使 用 jal x1， 
A。 再 假设 过 程 A 通过 jal x1，B 调用 过 程 B， 参 数 为 7， 也 存 人 x10。 由 于 A 尚未 结束 
任务 ， 所 以 寄存 器 x10 的 使 用 存在 冲突 。 同 样 在 寄存 器 xl 中 的 返回 地 址 也 存在 冲突 ， 因 为 
它 现在 具有 了 B 的 返回 地 址 。 除 非 采取 措施 阻止 这 类 问题 发 生 ， 否 则 该 冲突 将 导致 过 程 A 无 
法 返回 其 调用 者 。 

一 种 解决 方法 是 将 其 他 所 有 必须 保存 的 寄存 器 压 栈 ， 就 像 保 存 寄存 器 压 栈 一 样 。 调 用 者 
将 所 有 调用 后 还 需要 的 参数 寄存 器 (x10 ~ x17) 或 临时 寄存 器 (x5 ~ x7 和 x28 ~ x31) 
压 栈 。 被 调用 者 将 返回 地 址 寄存 器 xl 和 被 调用 者 使 用 的 保存 寄存 器 (x8 ~ x9 和 
x18 ~ x27) 压 栈 。 调 整 栈 指 针 sp 以 计算 压 栈 寄存 器 的 数量 。 返 回 时 ， 从 存储 器 中 恢复 寄 
存 器 并 重新 调整 栈 指针 。 


| 例题 | 编译 一 个 递归 C 过 程 ， 演 示 嵌 套 过 程 的 链接 
处 理 一 个 计算 阶乘 的 递归 过 程 : 





long long int fact (long long int n) 
{ 
jn et 
else return (n * fact(n 一 1)); 
} 
RISC-V 汇编 代码 是 什么 呢 ? 
| 答案 | 参数 变量 n 对 应 参数 寄存 器 x10。 编 译 后 的 程序 从 过 程 的 标签 开始 ， 然 后 在 栈 中 保 
存 两 个 寄存 器 ， 返 回 地 址 和 x10: 


Taeks 
dddl sb, Spy “16 WH adiust stack Tor 2 Tteils 
sd xl1, 8(sp) // save the return address 
sd X10 0(spy) // save the argument n 


第 一 次 调用 fact 时 ，sd 保存 程序 中 调用 fact 的 地 址 。 下 面 两 条 指令 测试 n 是 否 小 于 1， 
如 果 n 三 1 则 跳 转 到 L1。 

addi Ws bs LE 

bge x 并 er C= 1 = ys 0 th Ll 
如 果 n 小 于 1，fact 将 1 放 入 一 个 值 寄存 器 中 以 返回 1 : 它 将 1 加 0 并 将 和 存 人 x10 中 。 
然后 从 栈 中 弹出 两 个 已 保存 的 值 并 跳 转 到 返回 地 址 : 


addi LO XO. T A weturnr 
addi sps sb, 16 Wi pop 2 items off stack 
Tale x0,0(x1) // return to caller 


在 从 栈 中 弹出 两 项 之 前 ， 可 以 加 载 x1 和 x10。 因 为 当 n 小 于 1 时 xl 和 x10 不 会 改变 ,所 
以 跳 过 这 些 指令 。 
如 果 n 不 小 于 1， 则 参数 n 递减 ， 然 后 用 递减 后 的 值 再 次 调用 fact: 
Ll1s addt x10 Xl0, =1 1 Wy ls argunent gets Hs 1) 
jal wl fact // call fact with (n ~ 1) 
下 一 条 指令 是 fact 的 返回 位 置 ， 其 结果 在 x10 中 。 现 在 旧 的 返回 地 址 和 旧 的 参数 与 栈 指 针 
一 起 被 恢复 : 


addi x6, x10, 0 // return from jal: move result of fact 
tm = 1 PH 6s 

ld x10,0(sp) // restore argument n 

1d xl，8(Sp) // restore the return address 

addi sp, sp, 16 // adjust stack pointer to pop 2 items 


接 下 来 ， 参 数 寄存 器 x10 得 到 旧 参 数 与 fact (n-1) 结果 的 乘积 ， 目 前 在 x6 中 。 假 设 有 一 
个 乘法 指令 可 用 ， 尽 管 在 第 3 章 才 会 涉及 : 


mul X10 X10 %6 // return n * fact (n — 1) 
最 后 ，fact 再 次 跳 转 到 返回 地 址 : 
431 x0 位 (X1 // return to the caller 








7 软件 接 唱 | C 交 量 通常 指 一 个 存储 位 置 ， 其 解释 取决 于 其 类 型 (type) 和 存储 方 
Prvagm ee ed C 语言 有 两 种 存储 方式 : 动态 
的 (automatic) 和 静态 的 (static)。 动 态 变量 位 于 过 程 中 ， 并 在 程序 退出 时 失效 。 静 态 变量 从 
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过 程 进 入 到 退出 始终 存在 。 在 所 有 过 程 之 外 声明 的 C 变量 以 及 使 用 “| 全 局 指针 : 指向 静态 数据 
关键 字 static 声明 的 所 有 变量 ， 都 被 认为 是 静态 的 。 其 余 的 都 是 动态 “| 区 的 保存 寄存 器 。 

的 。 为 了 简化 静态 数据 的 访问 ， 一 些 RISC-V 编译 器 保留 一 个 寄存 

器 x3 用 作 全 局 指针 (global pointer) 或 gp。 

图 2-11 总 结 了 过 程 调 用 中 的 保存 对 象 。 需 要 注意 的 是 ， 有 些 方案 也 保存 了 栈 ， 以 确保 
调用 者 在 弹 栈 时 取 回 与 压 栈 时 相同 的 数据 。sp 以 上 的 栈 通过 确保 被 调用 者 不 在 其 上 进行 写 
和 人 来 保存 ; sp 本 身 就 是 由 被 调用 者 将 其 被 减 去 的 值 重 新 加 上 来 保存 的 ; 并 且 其 他 寄存 器 通 
过 将 它们 保存 到 栈 ( 若 被 使 用 ) 并 从 栈 中 将 其 恢复 来 进行 保存 。 








保存 | 不 保存 
保存 寄存 器 : x8 一 x9 ，x18 一 x27 临时 寄存 器 : x5 一 xX7 ，Xx28 一 x31 
栈 指针 寄存 器 : x2 (sp) 参数 /结果 寄存 器 : X10 一 x17 





帧 指针 : x8(fp) 
返回 地 址 ， xl(ra) 
栈 指 针 以 上 的 栈 栈 指针 以 下 的 栈 
图 2-11 过 程 调用 中 保存 的 及 不 保存 的 对 象 。 如 果 软 件 依赖 于 全 局 指针 寄存 器 〈 将 在 下 面 讨 
论 )， 则 也 需要 保存 


2.8.3 在 栈 中 为 新 数据 分 配 空间 


最 后 一 点 复杂 性 在 于 栈 也 用 于 存储 过 程 的 局 部 变量 ， 但 这 些 变 “| 过 程 帧 , 也 称 作 活动 记录 。 
量 不 适用 于 寄存 器 ， 例 如 局 部 数组 或 结构 体 。 栈 中 包含 过 程 所 保存 “| 栈 中 包含 过 程 保存 的 寄存 
的 寄存 器 和 局 部 变量 的 段 称 为 过 程 帧 或 活动 记录 。 图 2-12 展示 了 过 | 器 和 局 部 变量 的 段 。 

程 调 用 之 前 ， 期 间 和 之 后 栈 的 状态 。 


高 地 址 
FP » 




















SP 全 








低地 址 


al) b) c) 


图 2-12 ”过 程 调 用 之 前 (a)、 之 中 (b) 和 之 后 (ce) 栈 的 分 配 情况 。 帧 指针 (fp 或 x8) 指向 
帧 的 第 一 个 双 字 ， 通 常 是 保存 的 参数 寄存 器 ， 栈 指针 (sp) 指向 栈 项 。 调 整 栈 以 容 
纳 所 有 保存 的 寄存 器 和 常 驻 存储 器 的 局 部 变量 。 由 于 栈 指针 在 程序 执行 过 程 中 可 能 
会 发 生 改 变 ， 对 程序 员 而 言 ， 尽 管 只 需要 使 用 栈 指针 和 少量 的 地 址 运算 即 可 完成 对 
变量 的 引用 ， 但 通过 稳定 的 帧 指针 可 以 更 容易 地 引用 变量 。 如 果 在 过 程 中 栈 内 没有 
局 部 变量 ， 编 译 器 将 不 设置 和 不 恢复 帧 指针 以 节省 时 间 。 当 使 用 帧 指针 时 ， 在 调 
用 中 使 用 sp 的 地 址 进行 初始 化 ， 且 可 以 使 用 印 恢复 sp。 相 关内 容 也 可 以 在 本 书 
RISC-V 参考 数据 卡 的 第 4 列 中 找到 





一 些 RISC-V 编译 器 使 用 帧 指针 fp 或 者 寄存 器 x8 来 指向 过 程 “| 帧 指针 : 指向 给 定 过 程 的 
帧 的 第 一 个 双 字 。 栈 指针 在 过 程 中 可 能 会 发 生 改 变 ， 因 此 对 存储 器 “| 局 部 变量 和 保存 的 寄存 器 
中 局 部 变量 的 引用 可 能 会 有 不 同 的 偏 移 量 ， 具 体 取决 于 它们 在 过 程 “| 所 址 的 全 。 
中 的 位 置 ， 从 而 使 过 程 更 难 理解 。 帧 指针 在 过 程 中 为 局 部 变量 引用 
提供 一 个 稳定 的 基 址 寄存 器 。 注 意 ， 不 管 是 否 使 用 显 式 的 帧 指针 ， 栈 上 都 会 显示 一 条 活动 记 
录 。 我 们 可 以 通过 维护 稳定 的 sp 来 减少 对 fp 的 使 用 : 在 示例 中 ， 仅 在 进入 和 退出 过 程 时 
才 调整 栈 。 


2.8.4 在 推 中 为 新 数据 分 配 空间 


除了 动态 变量 (对 于 过 程 局 部 有 效 ) 之 外 ，C 程序 员 还 需要 为 静态 变量 和 动态 数据 结构 
ile 图 2-13 展示 了 运行 Linux 操作 系统 时 RISC-V 分 配 内 存 的 约定 。 栈 从 用 户 地 
空间 的 高 端 开始 ( 见 第 5 章 ) 并 向 下 扩展 。 低 端 内 存 的 第 一 部 分 是 保留 的 ， 之 后 是 RISC-V 
a 通常 称 为 代码 段 ( text segment)。 在 此 之 上 是 静态 数据 段 ( static data segment )， 
用 于 存放 常量 和 其 他 静态 变量 。 虽 然 数 组 具有 固定 长 度 ， 且 因此 可 
与 静态 数据 段 很 好 地 匹配 ,但 像 链表 等 数据 结构 往往 会 随 生命 周 | 代码 段 : UNIX 目标 文件 
期 增长 和 缩短 。 存 放 这 类 数据 结构 (数组 和 链表 ) 的 段 通常 称 为 堆 | 的 段 ， 包含 源 文件 中 例 程 
(heap)， 它 放 在 内 存 中 。 注 意 ， 这 种 分 配 允 许 栈 和 堆 相向 而 长 ， 从 而 “| 多 机 器 语言 代码 ， 
随 着 这 两 个 段 的 此 消 彼 长 达到 内 存 的 高 效 使 用 。 


SP-—» D000 O08f FFTE TO 


0000 0000 1000 0000,, 


PC—» 0000 0000 0040 0000,, 
0 

图 2-13 程序 和 数据 的 RISC-V 内 存 分 配 。 这 些 地 址 只 是 一 种 软件 规定 ， 而 不 是 RISC-V 体 
系 结构 的 一 部 分 。 当 给 定 64 位 体系 结构 时 ， 用 户 地 址 空间 设置 为 可 能 的 2% 总 地 
址 空间 的 2 ( 见 第 5 章 )。 栈 指针 初始 化 为 0000 003f ffff fff0is 并 向 下 增长 至 数据 
段 。 在 男 一 端 ， 程 序 代码 (图 中 的 “代码 ”) 从 0000 0000 0040 000016 开始 。 静 态 
数据 始 于 文本 段 未 ; 在 本 例 中 ,假设 地 址 是 0000 0000 1000 0000ies 之 后 是 动态 数 
据 ， 由 C 中 的 malloc 和 Java 中 的 new 分 配 。 它 在 称 为 堆 的 区 域 中 向 栈 的 方向 增 
长 。 关 于 这 点 可 参考 本 书 RISC-V 参考 数据 卡 的 第 4 列 


C 语言 通过 显 式 函数 调用 来 分 配 和 释放 堆 上 的 空间 。mal11oc( ) 在 堆 上 分 配 空 ee 
指向 它 的 指针 ，free( ) 释放 指针 所 指向 的 堆 空 间 。C 程序 控制 内 存 分 配 ， 这 是 许多 常见 
困难 bug 的 根源 。 忘 记 释 放空 间 会 导致 “内 存 泄漏 "， 最 终 耗 尽 大 量 内 存 ， nb 
统 月 省。 过 早 释 放空 间 会 导致 “悬空 指针 ”， 这 可 能 导致 指针 指向 程序 未 曾 打算 访问 的 位 置 。 
Java 使 用 自动 内 存 分 配 和 垃圾 回收 机 制 来 避免 这 类 错误 。 
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图 2-14 总 结 了 RISC-V 汇编 语言 的 寄存 器 约定 。 这 个 约定 是 | 性 
例子 : 大 多 数 过 程 可 以 使 用 多 达 8 个 参数 寄存 器 、12 个 保留 寄存 器 和 7 个 临时 寄存 器 而 无 须 
进入 内 存 。 


寄存 器 号 | 途 | 调用 时 是 否 保 存 ? 








x0 0 常数 0 





























| 不 适用 
xl (ra) 1 返回 赋值 ( 链接 寄存 器 ) 是 
x2 (sp) 2 栈 指针 是 

| (gp) 3 全 局 指针 是 
4 (tp) 4 线程 指针 是 
x5~x7 5~7 临时 否 
x8~x9 8~9 保存 是 
x10~x17 10~17 参数 /结果 否 
x18~x27 18~27 保存 是 
x28~x31 28 一 31 临时 否 




















图 2-14 RISC-V 寄存 器 约定 。 此 信息 也 可 见 本 书 RISC-V 参考 数据 卡 的 第 2 列 


| 详细 阐述 ”如 果 参 数 超过 8 个 怎么 办 ? RISC-V 约定 将 栈 中 额外 的 参数 放 在 帧 指针 的 上 
方 。 过 程 期 望 前 8 个 参数 在 寄存 器 x10 到 x17 中 ， 其 余 参 数 在 内 存 中 ， 可 通过 帧 指针 寻 址 。 

如 图 2-12 的 标题 所 述 ， 帧 指针 的 方便 性 在 于 对 过 程 中 栈 内 变量 的 所 有 引用 都 具有 相同 
的 偏 移 。 但 是 ， 帧 指针 并 不 是 必需 的 。RISC-V C 编译 器 仅 在 改变 了 栈 指针 的 过 程 中 使 用 帧 
指针 。 

| 详 顷 曾 述 ”一 些 递 归 过 程 可 以 不 使 用 递归 而 用 和 迭代 实现 。 迁 代 可 以 通过 消除 与 递归 调用 
相关 的 开销 来 显著 提高 性 能 。 例 如 ,考虑 一 个 用 于 求 和 的 过 程 : 


long long int sum (long long int n, long long int acc) 1{ 
《WN 宛 0 
rebwri som = 1 Mee TE ms 
else 
return acc; 


| 

考虑 过 程 调用 sum(3,0)。 这 将 导致 对 sum(2,3)、sum(1,5) 和 sum(0,6) 的 递归 
调用 ， 然 后 结果 6 将 返回 四 次 。 这 种 求 和 的 递归 调用 称 为 尾 调 用 (tail call)， 而 这 个 使 用 尾 递 
归 的 示例 可 以 用 迭代 高 效 实 现 (假设 x10=n，x11=acc， 结果 放 入 x12): 


sum: ble x10, x0; sum_exit /7 go to sum_exit if n <= 0 


人 U9 统计 洋 二 2 活 L 必 ty add mn to ace 

Sadl RL tb = sr Subtract 1 Fw i 

jal Xx0, sum /7 jump to sum 
sum_exit: 

dual Kl, XL A // return value acc 

jatr XO OCXLY // return to caller 











”2.C 会 比 Java 导致 更 多 的 指针 错误 和 内 存 泄 漏 错误 
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we 
2:9 人 机 交互 !(@ |=> (wow open tab at 


计算 机 的 发 明 是 为 了 数字 计算 ， 但 很 快 被 用 于 商业 方面 的 文 epi 和 
本 处 理 。 当 前 大 多 数 计算 机 使 用 字 节 来 表示 字符 ， 也 就 是 每 个 人 | yz joy (ny sc 
都 遵循 的 表示 方法 ASCII ( American Standard Code for Information | 着 的 傅 如 : ”是 wom， 人 


































































































Interchange)。 图 2-15 总 结 了 ASCII 码 。 是 open，"/” 奸 Bary， 学苑 ) 
二 
32 | space | 48 0 64 @ 80 P = 112 p 
33 ! 49 1 65 A | 81 Q 97 a 113 q 
34 50 2 66 B 82 R 98 b 114 r 
35 # 51 3 67 C 83 S 99 c 115 s 
36 $ 52 4 68 D 84 T 100 d i | 
37 % 53 5 69 E 85 U 101 e 117 u 
38 & 54 6 70 EE 86 V 102 f 118 v 
39 ' 55 7 71 G 87 Ww | 103 & 119 w 
40 ( 56 8 72 H 88 x 104 h 120 
41 ) 87 | 入 73 1 89 Y 105 | i 121 y | 

42 | * 58 : 74 站 z 106 j 122 z 
43 + | 59 ; 75 K 91 [ 107 k 123 { 
44 60 < 76 E 92 \ 108 I 124 | 
45 61 = 2 M 93 ] 109 m 36 | 3 
46 。 62 > 78 N 94 ^ 110 n 126 | -~ 
47 了 63 3 79 0 95 111 o 127 DEL 
图 2-15 字符 的 ASCII 表示 。 请 注意 ， 大 写 和 小 写字 母 恰 好 相差 32， 这 个 观察 可 以 用 作 检 
查 或 切换 大 小 写 的 捷径 。 未 显示 的 ASCII 值 包括 格式 化 字符 。 例 如 ，8 表示 退 格 ， 
9 表示 “tab” 字 符 ，13 表示 回 车 。 另 一 个 有 用 的 值 是 0 表示 null，C 语言 用 它 来 
标记 字符 串 结尾 
| 例题 | ASCII 码 对 比 二 进 制 数 = 





我 们 可 以 用 一 串 ASCII 码 而 不 是 整数 来 表示 数 。 如 果 用 ASCII 码 表示 10 亿 这 个 数 ， 相 
对 于 32 位 整数 ， 会 增加 多 少 存储 ? 
| 答案 | 十 亿 是 1 000 000 000， 需 要 10 个 ASCII 码 表 示 ， 每 个 8 位 长 。 因 此 存储 增长 为 
(10x8)7132 倍 9， 即 2.5 倍 。 除 了 存储 上 的 增长 之 外 ， 硬 件 对 这 样 的 十 进 制 数 进行 加 减 乘除 
也 是 困难 的 ， 并 伴 有 更 大 的 能 耗 。 这 些 困难 解释 了 为 什么 计算 机 专家 变 得 相信 二 进 制 计算 机 
是 自然 的 ， 而 偶尔 出 现 的 十 进 制 计算 机 是 奇怪 的 。 和 


一 系列 指令 可 以 从 双 字 中 提取 一 个 字 节 ， 因 此 对 双 字 的 加 载 和 存储 足以 传输 字 节 和 字 。 
但 由 于 某 些 程序 中 文本 的 流行 ， 所 以 RISC-V 提供 了 字 节 转移 指令 。 加 载 无 符号 字 节 ( 1bu) 
指令 从 内 存 加 载 一 个 字 节 ， 将 其 放 在 寄存 器 的 最 右边 8 位 。 存 储 字 节 ( sb) 指令 从 寄存 器 的 
最 右边 8 位 取 一 个 字 节 并 将 其 写 人 内存 。 因 此， 我 们 复制 一 个 字 节 的 顺序 如 下 : 


Tou, XLe OXLYY // Read byte from source 
sb XI2, OFXL1) // Write byte to destination 


字符 通常 组 合成 具有 可 变数 量 的 字符 串 。 字 符 串 的 表示 有 三 种 选择 :( 1 ) 字符 串 的 第 一 
个 位 置 保留 ， 用 于 给 出 字符 串 的 长 度 ; (2) 附加 带 有 字符 串 长 度 (如 在 结构 体 中 ) 的 变量 ; 








日 对 比 二 进 制 表示 。 译 者 注 
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(3 ) 字符 串 的 最 后 位 置 用 一 个 字符 标记 字符 串 结 尾 。C 语言 使 用 第 三 种 选择 ， 使 用 值 为 0 的 
字 节 终止 字符 串 〈 在 ASCII 中 命名 为 null) 。 因 此 ， 字 符 串 “Cal” 在 C 语言 中 用 以 下 4 个 字 
节 表 示 ， 十 进 制 数 表示 为 67、97、108 和 0。( 下 面 我 们 将 看 到 ，Java 使 用 第 一 个 选项 。) 


| 例题 | 编译 字符 串 复制 程序 ， 展 示 如 何 使 用 C 语言 字符 串 
strcpy 过 程 将 字符 串 y 复制 到 字符 串 x，C 语言 使 用 null 字 节 标 记 字符 串 结束 : 


void strepy Cehar 多 [和 
{ 
区 二 
1 = 0 
while (x[LTi] = yy = "NOY /BOBY & Fest. hyte */ 
1 = 3 





} 
编译 后 的 RISC-V 汇编 代码 是 什么 ? 
| 答案 | 下 面 是 基本 的 RISC-V 汇编 代码 段 。 假 设 数 组 x 和 y 的 基 址 存放 在 x10 和 x11 中 ， 
而 i 在 x19 中 。strcpy 调整 栈 指针 ， 然 后 将 保存 的 寄存 器 x19 保存 在 栈 中 : 


作风 8 人 
addi ‘sp, ‘st, =8 // adjust stack for 1 more item 
sd x19, 0(sp) // save x19 


将 i 初始 化 为 0， 下 一 条 指令 通过 0 加 0 将 x19 设 为 0 并 将 结果 放 在 x19 中 : 
add xl9, Xx0, 0 // i = 0+0 
这 是 循环 的 开始 。y [i] 的 地 址 首先 通过 将 i 加 到 y [] 来 形成 : 
Ll: dd XH XL9 Kl 7 ddrass Of vyLil Tm 5 
注意 ,我们 不 必 将 i 乘 以 8， 因 为 y 是 字 节 数组 而 不 是 双 字 ， 如 前 面 的 例子 中 那样 。 
为 了 加 载 y[i] 中 的 字符 ， 我 们 使 用 无 符号 加 载 字 节 ， 将 字符 放 和 人 x6 中 : 
lbw x OXS) AY XG Li 


类 似 的 地 址 计算 将 x [i] 的 地 址 放 在 x7 中 ， 然 后 x6 中 的 字符 存储 在 那个 地 址 中 。 


add 9 es a /yy address of xLi] inm X7 
sb XXX /7 XLi] = yLi] 


接 下 来 ， 如 果 字 符 为 0， 则 退出 循环 。 也 就 是 说 ， 如 果 它 是 字符 串 的 最 后 一 个 字符 ， 我 
们 退出 : 

bed RO 0. L2 
如 果 不 是 ， 递 增 i 继续 循环 : 

oa 


jal x 澳 | A :yo Cy Ly 
如 果 不 继续 循环 ， 它 就 是 字符 串 的 最 后 一 个 字符 ; 我 们 恢复 x19 和 栈 指针 ， 然 后 返回 。 
芝 导 KL9 QSP) // restore old x19 
addi SDs Sps 晶 // pop 1 doubleword off stack 
jale XO "Owl // return 


在 C 语 言 中 字符 串 复制 通常 使 用 指针 而 不 是 数组 ， 以 避免 在 上 面 的 代码 中 对 i 进行 操作 。 有 
关 数 组 与 指针 的 说 明 ， 请 参见 2.14 节 。 
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由 于 上 面 的 strcpy 过 程 是 一 个 叶 过 程 ， 编 译 器 可 以 将 i 分 配给 临时 寄存 器 并 避免 保 
存 和 恢复 x19。 因 此 ,我 们 可 以 将 它们 视 为 被 调用 者 在 方便 的 时 候 可 使 用 的 寄存 器 ， 而 不 是 
将 这 些 寄存 器 视 为 临时 寄存 器 。 当 编译 器 找到 一 个 叶 过 程 时 ， 它 会 在 使 用 必须 保存 的 寄存 器 
之 前 耗 尽 所 有 临时 寄存 天 。 


Java 中 的 字符 和 字符 串 


Unicode 是 大 多 数 人 类 语言 中 字母 表 的 通用 编码 。 图 2-16 给 出 了 Unicode 字 母 表 的 
列表 ，Unicode 中 的 字母 表 几 乎 与 ASCII 中 的 有 用 符号 一 样 多 。 为 了 更 具 包 容 性 ，Java 将 
Unicode 用 于 字符 。 默 认 情 况 下 ， 它 使 用 16 位 来 表示 一 个 字符 。 


























Latin Malayalam General Punctuation 

Sinhala Spacing Modifier Letters 
Cyrillic Mongolian Currency Symbols 

Limbu Combining Diacritical Marks 

| Hebrew | Tibetan i Combining Marks for Symbols 
Arabic Myanmar Kangxi Radicals Superscripts and Subscripts 
Syriac Georgian Number Forms 











Thaana Hangul Jamo Katakana Mathematical Operators 
Devanagari Ethiopic Bopomofo Mathematical Alphanumeric Symbols 


Bengali Cherokee Kanbun Braille Patterns 
Unified Canadian | Shavian Optical Character Recognition 
Aboriginal Syllabic 
Osmanya Byzantine Musical Symbols 
Oriya Runic Cypriot Syllabary Musical Symbols 
Tai Xuan Jing Symbols | Arrows 
Telugu Hanunoo Yijing Hexagram Symbols| Box Drawing 
Aegean Numbers Geometric Shapes 
图 2-16 Unicode 中 的 示例 字母 表 。Unicode 版 本 4.0 具 有 超过 160 个 “ 块 "， 每 个 块 是 一 
个 符号 集合 的 名 称 。 每 个 块 都 是 16 的 倍数 。 例 如 ,希腊 语 从 037016 开始 ， 西 里 
尔 语 从 04001 开始 。 前 三 列 显示 了 48 个 块 ， 这 些 块 大 致 以 Unicode 的 数字 顺序 对 
应 于 人 类 语言 。 最 后 一 列 16 个 块 是 多 种 语言 的 ， 且 不 按 顺 序 。 默 认 的 是 16 位 编 
码 ， 称 为 UTF-16。 称 为 UTF-8 的 变 长 编码 将 ASCII 子 集 保持 为 8 位 ， 并 对 其 他 字 
符 使 用 16 或 32 位 。UTF-32 每 个 字符 使 用 32 位 。 想 了 解 更 多 信息 ， 请 访问 www. 


unicode.org 


RISC-V 指令 系统 具有 加 载 和 存储 这 种 16 位 半 字 的 指令 。load half unsigned (加 载 无 符 
号 半 字 ) 从 内 存 中 读 取 一 个 半 字 ， 将 它 放 在 寄存 器 的 最 右边 16 位 ， 用 零 填 充 最 左边 的 48 
位 。 与 加 载 字 节 一 样 ， 加 载 半 字 ( 1h) 将 半 字 视 为 有 符号 数 ， 因 此 进行 符号 扩展 以 填充 寄存 
器 的 最 左边 48 位 。 存 储 半 字 ( sh) 从 寄存 器 的 最 右边 16 位 取 半 字 并 将 其 写 人 内存。 我 们 按 
下 面 的 序列 来 复制 一 个 半 字 : 


lhu x19, 0(x10) // Read halfword (16 bits) from source 
sh x19, 0O0(x11) // Write halfword (16 bits) to dest 


字符 串 是 标准 的 Java 类 ， 具 有 专门 的 内 置 支持 和 用 于 连接 、 比 较 和 转换 的 预定 义 方法 。 
与 C 语言 不 同 ，Java 包含 一 个 给 出 字符 串 长 度 的 字 ， 类 似 于 Java 数组 。 
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| 缮 细 阐 述 | RISC-V 软件 需要 保持 栈 的 “四 字 ”( 16 字 节 ) 地 址 对 齐 ， 以 获得 更 好 的 性 能 。 
这 意味 着 在 栈 上 分 配 的 char 变量 可 能 占用 多 达 16 个 字 节 ， 即 使 它 并 不 需要 这 么 多 。 但 是 ， 
C 字符 串 变 量 或 字 节 型 数组 会 把 每 16 个 字 节 压缩 为 “四 字 ”"，Java 字符 串 变量 或 short 型 
数组 将 每 8 个 半 字 压缩 为 “四 字 ”。 

| 泣 凯 阐述 为 了 反映 网 络 的 国际 性 ， 如 今 的 大 多 数 网 页 都 使 用 Unicode 而 不 是 ASCII。 
因此 现在 Unicode 可 能 比 ASCII 更 受 欢 迎 。 

| 详细 阐述 RISC-V 还 包括 将 32 位 值 移入 和 移出 存储 器 的 指令 。 加 载 无 符号 字 ( 1wu) 
将 32 位 字 从 存储 器 加 载 到 寄存 器 的 最 右边 32 位 ， 用 零 填 充 最 左边 的 32 位。 加载 字 ( 1w) 
用 第 31 位 的 值 填充 最 左边 的 32 位。 存储 字 ( sw) 从 寄存 器 的 最 右边 32 位 取 一 个 字 并 将 其 
存储 到 存储 器 中 。 





2.10 对 大 立即 数 的 RISC-V 编 址 和 寻 址 
虽然 将 所 有 RISC-V 指令 保持 32 位 长 可 以 简化 硬件 ， 但 有 时 候 使 用 32 位 或 更 大 的 常量 


或 地 址 会 很 方便 。 本 节 从 较 大 常量 的 一 般 解 决 方案 开始 ， 然 后 描述 了 分 支 指令 中 使 用 的 指令 
地 址 优化 。 


2.10.1 大 立即 数 

虽然 常量 通常 很 短 并 且 适 合 12 位 字段 ， 但 有 时 它们 也 会 更 大 。 

RISC-V 指令 系统 包括 指令 load upper immediate ( 取 立 即 数 高 位 ，1ui )， 用 于 将 20 位 
常数 加 载 到 寄存 器 的 第 31 位 到 第 12 位 。 将 第 31 位 的 值 复制 填充 到 最 左边 32 位 ， 最 右边 
的 12 位 用 0 填充 。 例 如， 这 条 指令 允许 使 用 两 条 指令 创建 32 位 常量 。1ui 使 用 新 的 指令 格 
式 一 一 U 型 ， 因 为 其 他 格式 不 能 支持 如 此 大 的 常量 。 


| 例题 | 加 载 一 个 32 位 常数 
将 以 下 64 位 常量 加 载 到 寄存 器 x19 的 RISC-V 汇编 代码 是 什么 ? 
00000000 00000000 00000000 00000000 00000000 00111101 00000101 00000000 


| 答案 | 首先 ， 我 们 使 用 1ui 加 载 12 到 31 位 ， 十 进 制 值 为 976: 


lui x19, 976 // 976,..4w = 0000 0000 0011 1101 0000 
之 后 寄存 器 x19 的 值 是 : 





decimal 
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0000000 00000000 00000000 00000000 00000000 00111101 00000000 00000000 
下 一 步 是 添加 最 低 12 位 ， 其 十 进 制 值 为 1280: 
addi x19, x19, 1280 J BO 


寄存 顺 x19 中 的 最 终 值 即 是 所 需 的 : 
00000000 00000000 00000000 00000000 00000000 00111101 00000101 00000000 


= 00000101 00000000 


1 








| 详细 阐述 在 前 面 的 例子 中 ， 常 量 的 第 11 位 为 0。 如 果 第 11 位 已 经 设 为 1， 则 会 出 现 
额外 的 复杂 情况 : 12 位 立即 数 是 符号 扩展 的 ， 因 此 加 数 将 为 负数 。 这 意味 着 除了 添加 常量 的 
最 右边 11 位 之 外 ， 我 们 还 需要 减 去 22。 为 了 弥补 这 个 错误 ， 只 需 将 1ui 加 载 的 常量 添加 一 
个 1， 因 为 1ui 常量 缩小 了 22 倍 。 

| 硬 厂 7 软 御 接 编译 器 或 汇编 程序 必须 将 大 的 常量 分 解 为 多 个 部 分 ， 然 后 将 它们 重新 
组 装 到 寄存 器 中 。 正 如 你 所 料 ， 对 于 加 载 和 存储 指令 中 的 常量 来 说 ， 立 即 数 字段 的 大 小 限制 
是 一 个 问题 。 

因此 ，RISC-V 机 器 语言 的 符号 表示 不 再 受 硬 件 限制 ， 而 是 受 限于 汇编 程序 的 构建 者 选 
择 包 含 的 内 容 (参见 2.12 节 )。 我 们 坚持 以 靠近 硬件 层次 的 方式 来 解释 计算 机 的 体系 结构 ， 
注意 ， 当 我 们 使 用 汇编 程序 的 扩展 语言 时 ， 在 实际 处 理 器 的 实现 中 是 找 不 到 的 。 


2.10.2 分支 中 的 寻 址 


RISC-V 分 支 指令 使 用 称 为 SB 型 的 RISC-V 指令 格式 。 这 种 格式 可 以 表示 从 -4096 到 
4094 的 分 支 地 址 ， 以 2 的 倍数 表示 。 由 于 最 近 的 一 些 原因 ， 它 只 能 跳 转 到 偶数 地 址 。SB 型 
格式 包括 一 个 7 位 操作 码 、 一 个 3 位 功能 码 、 两 个 5 位 的 寄存 器 操作 数 (rsl 和 rs2 ) 和 一 个 
12 位 地 址 立即 数 。 该 地 址 使 用 特殊 的 编码 方式 ， 简 化 了 数据 通路 设计 ， 但 使 组 装 变 得 复杂 。 
下 面 这 条 指令 

bre Xl0, X11 2000 A if X10 |= x1li, Y60 to 15cation 2000 = 0111 1101 0000 


可 以 组 装 为 这 种 格式 (正如 我 们 将 看 到 的 ， 它 实际 上 有 点 复杂 ); 


0 | 111110 | 01011 | 01010 | 001 | i100 | 0 | 1100111 
imm[12] imm[10:5] rs2 rs1 funct3 imm[4:1] imm[11] opcode 
其 中 条 件 分 支 的 操作 码 是 1100111:， 而 bne 的 funct3 码 是 0012。 

无 条 件 跳 转 -链接 指令 ( jal) 是 唯一 使 用 UJ 型 格式 的 指令 。 该 指令 由 一 个 7 位 操作 
码 、 一 个 5 位 目标 寄存 器 操作 数 (rd) 和 一 个 20 位 地 址 立即 数组 成 。 链 接地 址 ， 即 jal 之 
后 的 指令 的 地 址 ， 被 写 入 rd 中 。 

与 SB 型 格式 一 样 ，UJ 型 格式 的 地 址 操作 数 使 用 特殊 的 立即 数 编码 方式 ， 它 不 能 编码 奇 
数 地 址 。 所 以 ， 

jal x0; 2000 // go to Tocation 2000.. = 0111 1101 ‘0000 





























被 组 装 为 这 种 格式 : 
0 | 1111101000 0 00000000 | O00000 | LEO 
imm[20] imm[10:1] imm[11] imm[19:12] rd opcode 


如 果 程 序 的 地 址 必须 适合 这 个 20 位 字段 ， 则 意味 着 没有 程序 可 能 大 于 2”"， 而 这 对 于 今 
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天 的 需求 来 说 太 小 ， 不 是 一 个 现实 的 选择 。 另 一 种 方法 是 指定 一 个 与 分 支 地 址 偏 移 量 相 加 的 
寄存 器 ， 以 便 分 支 指令 可 以 按 如 下 来 计算 : 
程序 计数 器 = 寄存 器 内 容 + 分 支 地 址 偏 移 量 

这 样 就 允许 程序 大 到 2“， 并 且 仍 然 能 够 使 用 条 件 分 支 指令 ， 解 决 了 分 支 地 址 大 小 问题 。 
那么 问题 是 使 用 哪个 寄存 器 ? 

答案 来 自 于 如 何 使 用 条 件 分 支 指令 。 条 件 分 支 指令 在 循环 和 证 语句 中 使 用 ， 因 此 它们 倾 
向 于 转移 到 附近 的 指令 。 例 如 ，SPEC 基准 测试 中 约 有 一 半 的 条 件 分 支 跳 到 小 于 16 条 指令 距 
离 的 位 置 。 由 于 程序 计数 器 (PC) 包含 当前 指令 的 地 址 ， 如 果 我 们 
使 用 PC 作为 该 寄存 器 ， 可 以 在 距离 当前 指令 的 上 2" 个 字 的 地 方 分 | PC 相对 寻 址 ， 一 种 了 寻 址 
支 ， 或 者 跳 转 到 距离 当前 指令 +252 个 字 的 地 方 。 几 乎 所 有 循环 和 证 | 方式 ， 它 的 地 址 是 PC 和 
语句 都 小 于 2" 个 字 ， 因 此 PC 是 理想 的 选择 。 这 种 形式 的 寻 址 方式 “| 指令 中 的 常量 之 和 。 
称 为 PC 相对 寻 址 。 

与 最 新 的 计算 机 一 样 ，RISC-V 对 条 件 分 支 和 无 条 件 跳 转 使 用 PC 相对 寻 址 ， 因 为 这 些 
上 § 令 的 目标 地 址 可 能 距离 分 支 很 近 。 男 一 方面 ， 过 程 调用 可 能 需要 转移 超过 2” 个 字 的 距离 ， 
因为 不 能 保证 被 调用 者 接近 调用 者 。 因 此 ，RISC-V 允许 使 用 双 指 令 序 列 来 非常 长 距离 地 跳 
转 到 任何 32 位 地 址 : 1ui 将 地 址 的 第 12 位 至 第 31 位 写 入 临时 寄存 器 ，jalr 将 地 址 的 低 
12 位 加 到 临时 寄存 器 并 跳 转 到 目标 位 置 。 

由 于 RISC-V 指令 长 度 为 4 个 字 节 ， 因 此 RISC-V 分 支 指令 可 以 设计 为 通过 让 PC 相对 偏 
移 表 示 分 支 和 目标 指令 之 间 的 字数 而 不 是 字 节 数 ， 以 便 扩 展 其 范围 。 但 是 ，RISC-V 架构 师 也 
希望 支持 只 有 2 个 字 节 长 的 指令 ， 因 此 PC 相对 偏 移 表示 分 支 和 目标 指令 之 间 的 半 字 数 。 因 
此 ，jal 指令 中 的 20 位 地 址 字段 可 以 编码 为 距 当 前 PC + 2” 个 半 字 或 + 1 MiB 的 距离 。 类 似 
地 ， 条 件 分 支 指 令 中 的 12 位 立即 数字 段 也 是 半 字 地 址 ， 这 意味 着 它 表 示 13 位 的 字 节 地 址 。 





| 例题 | 描述 机 器 语言 中 的 分 支 偏 移 = 
2.7.1 节 的 while 循环 已 编译 为 下 列 RISC-V 汇编 代码 : 
Lap tT Xl, N22, 3 // Temp reg xl0=ix*x 8 
add xl0，xl0，x25 // xl0 = address of Save[i] 
1d x9,0(x10) // Temp reg x9 = saveli] 
bne x9, x24, Exit // go to Exit if save[i] != k 
i 22 XW 生生 
beq x0, x0, Loop 1 ge: to Loop 
Ex 


如 果 我 们 假设 将 循环 的 开始 放 在 内 存 的 80000 处 中 ,那么 这 个 循环 的 RISC-V 机 器 代码 是 什么 ? 
| 答案 | 汇编 指令 及 其 地 址 如 下 : 


so004 | oo00000 | 11001 | 01010 | 000 | 01010 | 0110011 | 


80012 0000000 | 11000 | 01001 01100 | 1100011 
80016 0000000 | 00001 | 10110 | 000 | 10110 | 0010011 
80020 1111111 | 00000 | 00000 | 000 | 01101 | 1100011 


请 记 住 ，RISC-V 指令 是 字 节 地 址 ， 因 此 相连 字 的 地 址 相差 4。 第 四 行 上 的 bne 指令 将 
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3 个 字 或 12 个 字 节 加 到 指令 地 址 上， 指明 分 支 目 标 和 分 支 指令 (12 + 80012 ) 相关 ， 而 不 使 
用 完整 的 目标 地 址 (80024 )。 最 后 一 行 上 的 分 支 指令 对 向 后 分 支 (一 20 + 80020 ) 进行 类 似 
的 计算 ， 对 应 于 标签 Loop。 





[三 征 观 次 伴 接 画 3 大 多 数 条 件 分 支 到 达 附 近 的 位 置 ， 但 偶尔 会 转移 到 很 远 的 位 置 ， 远 远 
超过 条 件 分 支 指令 中 的 12 位 地 址 能 表示 的 范围 。 汇 编程 序 解决 该 问题 就 如 同 处 理 大 地 址 或 
常量 的 方法 一 样 : 插入 无 条 件 跳 转 到 分 支 目 标 ， 并 将 条 件 取 反 ， 以 便条 件 分 支 决定 是 否 跳 过 
该 无 条 件 跳 转 。 


| 例题 | 远 距离 分 支 一 一 一 一 
寄存 器 x10 等 于 0 时 给 定 一 个 分 支 ， 
beq RL Rs 


用 一 对 提供 更 大 分 支 距离 的 指令 替换 它 。 
| 答案 | 用 下 面 的 指令 替换 短 地 址 条 件 分 支 指令 : 


bne YX 
jal 人 be 
Ls 








2.10.3” ”RISC-V 寻 址 模式 总 结 
多 种 不 同 的 寻 址 形式 通常 称 为 寻 址 模式 。 图 2-17 显示 了 每 种 寻 ”| 寻 址 模式 : 根据 对 操作 数 


址 模式 如 何 识别 操作 数 。RISC-V 指令 的 寻 址 模式 如 下 : 和 (或 ) 地 址 使 用 的 不 同 ， 
在 多 种 寻 址 方式 中 加 以 区 


1. 立即 数 寻 址 分 的 寻 址 机 制 。 
anal ao 
2. 寄存 器 寻 址 


ncn mr ore] oT op 










3. 基 址 寻 址 


mos [mr orcal [oo A 





图 2-17 四 种 RISC-V 寻 址 模式 的 示意 图 。 操 作 数 以 灰色 阴影 表示 。 寻 址 模式 3 的 操作 数 在 
内 存 中 ， 而 模式 2 的 操作 数 在 寄存 器 中 。 注 意 加 载 和 存储 对 字 节 、 半 字 、 字 或 双 
字 的 访问 有 不 同 的 版 本 。 对 于 寻 址 模式 1， 操 作 数 是 指令 本 身 的 一 部 分 。 模 式 4 寻 
址 指令 在 内 存 中 ,将 长 地 址 与 PC 相 加。 注意 一 种 操作 可 以 使 用 多 个 寻 址 模式 。 例 
如 ， 加 法 可 以 使 用 立即 数 寻 址 (addi ) 和 寄存 器 寻 址 (add ) 
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1. 立即 数 寻 址 ,操作 数 是 指令 本 身 的 常量 。 
2. 寄存 器 寻 址 ， 操 作 数 在 寄存 器 中 。 

3. 基 址 或 偏 移 寻 址 ， 操 作 数 于 内 存 中 ， 其 地 址 是 寄存 器 和 指令 中 的 常量 之 和 。 
4. PC 相对 寻 址 ,分 支 地 址 是 PC 和 指令 中 常量 之 和 。 


2.10.4 机 器 语言 译 码 


有 时 必须 通过 逆向 工程 将 机 器 语言 恢复 到 初始 的 汇编 语言 。 例 如 发 生 “ 内 存 转 储 ”( core 
dump) 时 。 图 2-18 显示 了 RISC-V 机 器 语言 对 应 的 二 进 制 编码 。 这 个 图 有 助 于 在 汇编 语言 
机 器 语言 之 间 进 行 手动 翻译 。 


夫人 Purdie 


















| add [0110011 0000000 
sub 0110011 | 000 | 0100000 





Si 0110011 0000000 
0110011 | 0000000 


a srl 0110011 0000000 
0110011 0 



































0110011 | 0000000 | 
| 0110011 0000000 


0110011 
0110011 
站 二 


001 n.a. 
0000011 
Th 0000011 | 
0000011 EE i 苹 本 
一 oo oo | ao | na | 
000000 
xori 0010011 下 
0010011 


0010011 110 | Wa | 
0010011 | na | 


1100111 000 | 
000 
一 一 
eT 上 二 本 丰 -的 这 芝 二 这 寺 

bne 1100111 


| bge |1100111 i 











































































T100111 
1100111 
一 通 | aaom 


1101111 








图 2-18 RISC-V 指令 的 编码 。 所 有 指令 都 有 一 个 操作 码 字 段 ， 除 了 U 型 和 UJ 型 之 外 的 
所 有 格式 都 使 用 funct3 字段 。R 型 指令 使 用 funct7 字段 ， 立 即 数 移 位 (s11i， 
srli，srai) 使 用 funct6 字段 
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| 例题 | 机 器 码 译 码 
与 下 面 这 条 机 器 指令 对 应 的 汇编 语言 语句 是 什么 ? 
00578833,。 


| 答案 | 第 一 步 是 将 十 六 进 制 转换 为 二 进 制 : 

0000 0000 0101 0111 1000 1000 0011 0011 

要 知道 如 何 解释 这 些 位 ， 我 们 需要 确定 指令 格式 ， 为 此 首先 需要 确定 操作 码 。 操 作 码 是 
最 右边 的 7 位 ， 即 0110011。 在 图 2-18 中 搜索 该 值 ， 我 们 看 到 操作 码 对 应 于 R 型 算术 指令 。 
因此 ， 我 们 可 以 将 二 进 制 格式 解析 为 下 图 中 列 出 的 字段 : 


funct7 rs2 | rs1 | funct3 rd | opcode | 
0000000 00101 Q1111 000 10000 0110011 


我 们 通过 查看 字段 值 来 译 码 指令 的 剩余 部 分 。funct7 和 funct3 字段 均 为 零 ， 表 示 指 令 
是 加 法 。 操 作 数 寄存 器 rs2 eo shea 5, rsl 为 15，rd 为 16。 这 些 数字 代表 寄存 器 
x5、x15 和 x16。 现 在 我 们 可 以 得 到 汇编 指令 

add XL6, XL XS 




















图 2-19 显示 了 所 有 RISC-V 指令 格式 。 图 2-1 显示 了 本 章 中 介绍 的 RISC-V 汇编 语言 
下 一 章 将 介绍 用 于 实数 的 乘法 、 除 法 和 算术 的 RISC-V 指令 。 
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funct7 funct3 opcode | 算术 指令 格式 
汉 immediate[11:0] rs1 funct3 opcode | 加 载 & 立 即 数 算术 
S 型 immed[11:5] rs2 rs1 funct3 | immed[4:0] opcode | 存储 
SB 型 immed[12,10:5] rs2 rS1 funct3 |immed[4:1,11] opcode | 条 件 分 支 格 式 
UJ 型 immediate[20,10:1,11,19:12] rd opcode | 无 条 件 跳 转 
U 型 immediate[31:12] rd opcode | 大 立即 数 格 式 





图 2-19 ”RISC-V 指令 格式 





Re 
自我 检测 


I，RISC-V 中 条 件 分 支 的 字 节 地 址 范围 是 多 少 (K = 1024 ) ? 
1. 地 址 在 0 到 4K=1 之 间 
2. 地 址 在 0 到 8SK-1 之 间 
3. 分 支 前 后 地 址 范围 各 大 约 为 2K 
4. 分 支 前 后 地 址 范围 各 大 约 为 4K 
HI. RISC-V 中 跳 转 -链接 指令 的 字 节 地 址 范围 是 多 少 (M = 1024K) ? 
1. 地 址 在 0 到 512K-1 之 间 
2. 地 址 在 0 到 1M-1 之 间 
“3. 分 支 前 后 地 址 范围 各 大 约 为 512K 
4. 分 支 前 后 地 址 范围 各 大 约 为 1M 








2.11 ”指令 与 并 行 性 : 同步 

当 任 务 之 间 相 互 独立 时 ， 用 行 执行 更 为 容易 ， 但 通常 任务 之 间 ”| 数据 竞争 ， 如 果 来 自 两 个 
需要 协作 。 协 作 通 常 意味 着 一 些 任务 正在 写 和 人 其 他 任务 必须 读 取 的 ”| 不 同 的 线程 的 访 存 请 求 访 
值 。 需 要 知道 任务 何 时 完成 写 和 以便 其 他 任务 安全 地 读 出 ， 因 此 任 | 人 是 全 二 让 二 二 下 
务 之 间 需 要 同步 。 如 果 它 们 不 同步 ， 则 存在 数据 竞争 ( data race) 的 RR 
和 危险， 那么 程序 的 结果 会 根据 事件 发 生 的 次 序 而 改变 。 数据 竞争 。 

例如 ， 回 想 一 下 1.8 节 中 提 到 的 8 个 记者 写作 一 篇 故事 的 类 比 。 
假设 一 位 记者 在 写 完 总 结 之 前 需要 阅读 前 面 所 有 的 章节 。 那 么 ， 他 必须 知道 其 他 记者 什么 时 
候 完成 各 自 的 章节 ， 以 便 之 后 不 会 出 现 他 写 完 总 结 后 其 他 记者 又 修改 了 各 自 章节 的 情况 。 也 
就 是 说 ， 他 们 最 好 同步 每 个 部 分 的 写作 和 阅读 ， 以 便 与 前 面 章节 的 内 容 一 致 。 

在 计算 中 ， 同 步 机 制 通常 由 用 户 级 的 软件 例 程 所 构建 ， 而 这 依赖 于 硬件 提供 的 同步 指 
令 。 在 本 节 中 ， 我 们 将 重点 介绍 加 锁 (lock) 和 解锁 ( unlock) 同步 操作 的 实现 。 加 锁 和 解锁 
可 直接 用 于 创建 只 有 单个 处 理 右 可 以 操作 的 区 域 ， 称 为 互 斥 (mutual exclusion) 区 ， 以 及 实 
现 更 复杂 的 同步 机 制 。 

在 多 处 理 器 中 实现 同步 所 需 的 关键 是 一 组 硬件 原 语 ， 能 够 提供 以 原子 方式 读 取 和 修改 内 
存单 元 的 能 力 。 也 就 是 说 ， 在 内 存单 元 的 读 取 和 写 人 之 间 不 能 插入 其 他 任何 操作 。 如 果 没 有 
这 样 的 能 力 ， 构 建 基本 同步 原 语 的 成 本 将 会 很 高 ， 并 会 随 着 处 理 器 数量 的 增加 而 急剧 增加 。 

有 许多 基本 硬件 原 语 的 实现 方案 ， 所 有 这 些 都 提供 了 原子 读 和 原子 写 的 能 力 ， 以 及 一 
些 判 断 读 写 是 否 是 原子 操作 的 方法 。 通 常 ， 体 系 结构 设计 人 员 不 希望 用 户 使 用 基本 的 硬件 原 
语 ， 而 是 期 望 系统 程序 员 使 用 原 语 来 构建 同步 库 ， 这 个 过 程 通常 复杂 且 环 手 。 

我 们 从 原子 交换 ( atomic exchange 或 atomic swap) 原 语 开始 ， 展 示 如 何 使 用 它 来 构建 
基本 同步 原 语 。 它 是 构建 同步 机 制 的 一 种 典型 操作 ， 它 将 寄存 絮 中 的 值 与 存储 器 中 的 值 进行 
交换 。 

为 了 了 解 如 何 使 用 它 来 构建 基本 同步 原 语 ， 假 设 要 构建 一 个 简单 的 锁 变 量 ， 其 中 值 0 用 
于 表示 锁 变 量 可 用 ， 值 1 用 于 表示 锁 变 量 已 被 占用 。 处 理 器 尝试 通过 将 寄存 器 中 的 1 与 该 锁 
变量 对 应 的 内 存 地 址 的 值 进行 交换 来 设置 加 锁 。 如 果 某 个 其 他 处 理 需 已 声明 访问 该 锁 变 量 ， 
则 交换 指令 的 返回 值 为 1， 表明 该 锁 已 被 其 他 处 理 器 占用 ， 和 否则 为 0， 表示 加 锁 成 功 。 在 后 
一 种 情况 下 ， 锁 变量 的 值 变 为 1， 以 防止 其 他 处 理 需 也 加 锁 成 功 。 

例如 ， 考 虑 两 个 处 理 需 尝试 同时 进行 交换 操作 : 这 种 竞争 会 被 阻止 ， 因 为 其 中 一 个 处 理 
器 将 首先 执行 交换 ， 并 返回 0， 而 第 二 个 处 理 器 在 进行 交换 时 将 返回 1。 使 用 交换 原 语 实现 
同步 的 关键 是 操作 的 原子 性 : 交换 是 不 可 分 割 的， 硬件 将 对 两 个 同时 发 生 的 交换 进行 排序 。 
尝试 以 这 种 方式 设置 同步 变量 的 两 个 处 理 器 都 不 可 能 认为 它们 同时 设置 了 变量 。 

实现 单个 的 原子 存储 操作 为 处 理 器 的 设计 带 来 了 一 些 挑战 ， 因 为 它 要 求 在 单条 不 可 中 断 
的 指令 中 完成 存储 器 的 读 和 写 操作 。 

男 一 种 方法 是 使 用 指令 对 ， 其 中 第 二 条 指令 返回 一 个 值 ， 该 值 表示 该 指令 对 是 否 被 原 
子 执行 。 如 果 任 何 处 理 器 执行 的 所 有 其 他 操作 都 发 生 在 该 对 指令 之 前 或 之 后 ， 则 该 指令 对 实 
际 上 是 原子 的 。 因 此 ， 当 指令 对 实际 上 是 原子 操作 时 ， 没 有 其 他 处 理 器 可 以 在 指令 对 之 间 改 
变 值 。 

在 RISC-V 中 ， 这 对 指令 指 的 是 一 个 称 为 保留 加 载 (load-reserved) 双 字 (1r.d) 的 特殊 
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加 载 指 令 和 一 个 称 为 条 件 存储 ( store-conditional) 双 字 (sc.d) 的 特殊 存储 指令 。 这 些 指 令 
按 序 使 用 : 如 果 保 留 加 载 指令 指定 的 内 存 位 置 的 内 容 在 条 件 存 储 指令 执行 到 同一 地 址 之 前 发 
生 了 变化 ， 则 条 件 存储 指令 失败 且 不 会 将 值 写 入 内 存 。 条 件 存储 指令 定义 为 将 (可 能 是 不 同 
的 ) 寄存 器 的 值 存储 在 内 存 中 ， 如 果 成 功 则 将 另 一 个 寄存 器 的 值 更 改 为 0， 如 果 失 败 则 更 改 
为 非 零 值 。 因 此 ，sc.d 指定 了 三 个 寄存 器 : 一 个 用 于 保存 地 址 ， 一 个 用 于 指示 原子 操作 失 
败 或 成 功 ， 还 有 一 个 用 于 如 果 成 功 则 将 值 存 储 在 内 存 中 。 由 于 保留 加 载 指令 返回 初始 值 ， 并 
且 条 件 存储 指令 仅 在 成 功 时 返回 0， 因 此 以 下 序列 在 寄存 器 x20 中 指定 的 内 存 位 置 上 实现 原 
子 交 换 : 


aganinslrd XL1D: tx20 // load-reserved 
oe 0 ;I 4 // store-conditional 
Be! Rll XO again // branch if store fails 
addi X23 XI 0 // put loaded value in x23 


每 当 处 理 器 干预 并 修改 1r .d 和 sc.d 指令 之 间 的 内 存 中 的 值 时 ，sc.d 就 会 将 非 零 值 
写 入 x11， 从 而 导致 代码 序列 重新 执行 。 在 此 序列 结束 时 ，x23 的 值 和 x20 指向 的 内 存 位 
置 的 值 发 生 了 原子 交换 。 

有 天 了 亲 通 虽然 同步 是 为 多 处 理 器 而 提出 的 ， 但 原子 交换 对 于 单个 处 理 器 操作 系统 中 处 

理 多 个 进程 也 很 有 用 。 为 了 确保 单个 处 理 器 中 的 执行 不 受 任何 干扰 ， 如 果 处 理 器 在 两 个 指令 
对 之 间 进 行 上 下 文 切换 ， 则 条 件 存 储 也 会 失败 (参见 第 5 章 )。 

人 述 保留 加 载 / 条 件 存储 机 制 的 一 个 优点 是 可 以 用 于 构建 其 他 同步 原 语 ， 例 如 原 
子 的 比较 和 交换 (atomic compare and swap) 或 原子 的 取 后 加 (atomic fetch-and-increment )， 
这 在 一 些 并 行 编程 模型 中 使 用 。 这 些 同步 原 语 的 实现 需要 在 1r.d 和 sc.d 之 间 插 入 更 多 指 
令 ， 但 不 会 太 多 。 

由 于 条 件 存 储 会 在 另 一 个 store 尝试 加 载 保留 地 址 或 异常 之 后 失败 ， 因 此 必须 注意 选择 
在 两 个 指令 之 间 插 入 哪些 指令 。 特 别 是 ， 只 有 保留 加 载 / 条 件 存储 块 中 的 整 点 算术 、 前 向 分 
支 和 后 向 分 支 被 允许 执行 且 不 会 出 现 问 题 ; 否则 ， 可 能 会 产生 死 锁 情况 由 于 重复 的 页 错 
误 ， 处 理 器 永远 无 法 完成 sc.d。 此 外 ,保留 加 载 和 条 件 存 储 之 间 的 指令 数 应 该 很 少 ， 以 将 
由 于 不 相关 事件 或 竞争 处 理 器 导致 条 件 存储 频繁 失败 的 可 能 性 降 至 最 低 。 

| 磁 绩 立 带 虽然 上 面 的 代码 实现 了 原子 交换 ， 但 下 面 的 代码 可 以 更 有 效 地 获取 寄存 器 
x20 对 应 存储 中 的 锁 变 量 ， 其 中 值 0 表示 锁 变量 是 空闲 的 ， 值 1 表示 锁 变量 被 占用 : 

SUdTXL2C， XO 1 // copy locked value 

againi lrg wiD, x200 // load-reserved to read lock 

bne x10, x0, again // check if it is 0 yet 


sc.d xll, x12, (x20) // attempt to store new value 
bne xll, x0, again // branch if store fails 











我 们 只 使 用 普通 的 存储 指令 将 0 写 入 该 位 置 来 释放 锁 变 量 : 
sd x0, 0(x20) // free lock by writing 0 
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2.12 翻译 并 启动 程序 

本 节 介 绍 了 将 存储 (磁盘 或 闪存 ) 文件 中 的 C 程序 转换 为 计算 机 上 可 运行 程序 的 四 个 步 
又 。 图 2-20 显示 了 转换 的 层次 结构 。 有 些 系统 将 这 些 步 又 结合 起 来 以 减少 转换 时 间 ， 但 程 
序 的 转换 过 程 一 定 会 经 历 这 四 个 逻辑 阶段 。 本 节 遵 循 此 转换 层次 结构 。 









汇编 语言 程序 





可 执行 代码 : 机 器 语言 程序 


图 2-20 “C 语言 的 转换 层次 结构 。 首 先 将 高 级 语言 程序 编译 成 汇编 语言 程序 ， 然 后 用 机 器 语 
言 组 装 成 目标 模块 。 链 接 器 将 多 个 模块 与 库 程 序 组 合 在 一 起 以 解析 所 有 引用 。 然 
后 ， 加 载 器 将 机 器 代码 放 和 适当 的 存储 器 位 置 以 供 处 理 器 执行 。 为 了 加 快 转换 过 
程 ， 可 以 跳 过 或 将 一 些 步骤 组 合 到 一 起 。 一 些 编译 器 直接 生成 目标 模块 ， 一 些 系 
统 使 用 链接 加 载 器 执行 最 后 两 个 步 又。 为 了 识别 文件 类 型 ，UNIX 遵循 文件 的 后 组 
约定 : C 源 文 件 命名 为 xc， 汇编 文件 命名 为 xs， 目标 文件 命名 为 x.o， 静 态 链接 
库 程 序 为 xa， 动 态 链接 库 路 径 为 xso， 以 及 默认 情况 下 ， 可 执行 文件 称 为 a.out。 
MS-DOS 使 用 后 级 .C、.ASM、.OBJ、.LIB、. DLL 和 .EXE 的 效果 相同 


2.12.1 编译 器 

编译 器 将 C 程序 转换 为 机 需 能 理解 的 符号 形式 汇编 语言 程 “| 汇编 语言 ， 一 种 能 被 翻译 
序 (assembly language program)。 高 级 语言 程序 比 汇编 语言 使 用 更 | 为 二 进 制 机 器 语言 的 符号 
少 的 代码 行 ， 因 此 程序 员 的 工作 效率 更 高 。 生计 

在 1975 年 ， 许 多 操作 系统 和 汇编 器 都 是 用 汇编 语言 (assembly 
language) 编写 的 ， 因 为 那 时 的 计算 机 内 存 很 小 而 且 编 译 器 效率 还 很 低下 。 如 今 每 个 DRAM 
芯片 的 内 存 容量 增加 了 数 百 万 倍 ， 从 而 减少 了 程序 员 对 程序 大 小 的 关注 , 今天 的 优化 编译 器 
几乎 可 以 像 汇编 语言 专家 那样 生成 汇编 语言 程序 ， 而 且 对 大 型 程序 的 优化 效果 有 时 甚至 比 人 
工 优 化 更 好 。 


2.122 汇编 圳 
由 于 汇编 语言 是 高 层 软件 的 接口 ， 因 此 汇编 器 还 可 以 处 理 机 器 指令 的 常见 变 体 ， 就 像 这 
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些 变 体 是 它 自己 的 指令 一 样 。 硬 件 不 需要 实现 这 些 指令 ; 然而 ,， 它 ”| 伪 指 令 : 一 种 汇编 指令 的 
们 在 汇编 语言 中 的 出 现 简化 了 程序 转换 和 编程 。 这 类 指令 称 为 伪 项 生 雪人 、 Mey 
指令 。 汇编 语言 指令 。 
如 上 所 述 ，RISC-V 硬件 确保 寄存 器 x0 总 是 取 0。 也 就 是 说 ， 
每 当 使 用 寄存 器 x0 时 ， 它 提供 0， 如 果 程 序 员 尝试 更 改 x0 中 的 值 ， 则 新 值 会 被 直接 丢弃 。 
寄存 器 x0 用 于 创建 汇编 语言 指令 ， 将 一 个 寄存 器 的 内 容 复制 到 另 一 个 寄存 器 。 因 此 ， 即 使 
在 RISC-V 机 器 语言 中 不 存在 这 条 指令 ，RISC-V 汇编 器 也 能 够 识别 以 下 指令 : 
下 有 // load immediate value 123 into register x9 
汇编 器 将 此 汇编 语言 指令 转换 为 与 以 下 指令 等 效 的 机 器 语言 : 
addi x9, x0, 123 // register x9 gets register x0 + 123 
RISC-V 汇编 器 还 将 mv (move) 转换 为 addi 指令 。 从 而 
mv x10, xll // register x10 gets register xl1 
变 为 
add XL0 xll, 0 J/ register xl0 gets register x1il 咎 0 


汇编 器 还 接受 j Label 作为 jal x0，Label 的 替代 ， 无条件 跳 转 到 标签 位 置 。 它 
还 将 跳 转 到 远 距 离 的 分 支 指令 转换 为 一 个 分 支 指令 和 一 个 跳 转 指令 。 如 上 所 述 ，RISC-V 汇 
编 器 允许 将 大 常量 加 载 到 寄存 器 中 ， 尽 管 立即 数 指令 的 位 数 有 限 。 因 此 ， 上 面 介绍 的 load 
immediate (1i ) 伪 指 令 可 以 创建 大 于 addi 的 立即 数字 段 可 包含 的 常量 ; 加 载 地 址 (1a) 宏 
对 符号 地 址 的 工作 方式 类 似 。 最 后 ， 它 可 以 通过 确定 程序 员 想 要 的 指令 变 体 来 简化 指令 系 
统 。 例 如 ,算术 和 逻辑 指令 使 用 常量 时 ，RISC-V 汇编 器 不 要 求 程序 员 指 定 指令 的 立即 数 版 
本 ， 它 只 是 生成 正确 的 操作 码 。 从 而 将 

and x9, x10, 15 // register x9 gets x10 AND 15 
变 为 

andi Xx9; XL0, 15 17 register x9 qets XI AND 15 

我 们 在 指令 中 包含 “ i” 以 提醒 读者 ，andi 与 没有 立即 数 操作 数 的 and 指令 不 同 ， 具 
有 不 同 的 指令 格式 ,会 生成 不 同 的 操作 码 。 

总 之 ， 伪 指令 为 RISC-V 提供 了 比 硬件 实现 更 丰富 的 汇编 语言 指令 系统 。 如 果 要 编写 汇 
编程 序 ， 请 使 用 伪 指 令 来 简化 任务 。 但 是 ， 要 了 解 RISC-V 体系 结构 并 确保 获得 最 佳 性 能 ， 
请 学 习 图 2-1 和 图 2-18 中 真正 的 RISC-V 指令 。 

汇编 右 也 会 接收 不 同 基数 的 数字 。 除 了 二 进 制 和 十 进 制 之 外 ， 它 们 通常 接收 比 二 进 制 更 
简短 又 很 容易 转换 为 位 模式 的 基数 。RISC-V 汇编 器 使 用 十 六 进 制 和 八进制 。 

这 种 特性 非常 方便 ， 但 汇编 器 的 主要 任务 是 汇编 成 机 器 代码 。 汇 编 器 将 汇编 语言 程序 转 
换 为 目标 文件 (object file)， 该 目标 文件 是 机 器 指令 、 数 据 和 将 指令 正确 放 入 内 存 所 需 信息 
的 组 合 。 

为 了 在 汇编 语言 程序 中 产生 每 条 指令 的 二 进 制版 本 ， 汇 编 器 必 | 符号 表 ， 用 于 匹配 标签 名 
须 确定 与 所 有 标签 相对 应 的 地 址 。 汇 编 器 会 跟踪 分 支 中 使 用 的 标签 ”| 和 指令 所 在 内 存 的 地 址 
和 符号 表 中 的 数据 传输 指令 。 正 如 你 所 料 ， 该 表 由 符号 和 对 应 地 址 | 的 表 。 

成 对 组 成 。 








UNIX 系统 的 目标 文件 通常 包含 六 个 不 同 的 部 分 : 
@ 目标 文件 头 ， 描 述 了 目标 文件 的 其 他 部 分 的 大 小 和 位 置 。 
代码 段 ， 包 含 机 絮语 言 代码 。 


图 2-13。) 


e 符号 表 ， 包 含 剩 余 的 未 定义 的 标签 ， 例 如 外 部 引用 。 
调试 信息 ， 
源 文件 相关 联 并 使 数据 结构 可 读 。 

下 一 小 节 将 介绍 如 何 链 接 已 汇编 完成 的 子 程序 ， 例 如 库 程序 。 


2.12.3 ”链接 器 


到 目前 为 止 我 们 所 呈现 的 内 容 表明 ， 对 一 个 程序 的 一 行进 行 单 
一 更 改 需 要 编译 和 汇编 整个 程序 。 完 全 重新 翻译 是 对 计算 资源 的 严 
重 浪费 。 这 种 重复 对 于 标准 库 程序 来 说 尤其 浪费 ， 因 为 程序 员 将 要 
编译 和 汇编 根据 定义 几乎 永远 不 会 改变 的 例 程 。 另 一 种 方法 是 独立 
编译 和 汇编 每 个 过 程 ， 因 此 更 改 一 行 代码 只 需要 编译 和 汇编 一 个 过 
程 。 这 种 替代 方案 需要 一 个 新 的 系统 程序 ， 称 为 链接 编辑 器 或 链接 


静态 数据 段 ， 包 含 在 程序 生命 周期 内 分 配 的 数据 ( UNIX 允许 程序 使 用 静态 数据 ， 它 
在 整个 程序 中 都 存在 ; 也 允许 使 用 动态 数据 ， 它 可 以 根据 程序 的 需要 增长 或 缩小 。 见 


重 定位 信息 ,标记 了 在 程序 加 载 到 内 存 时 依赖 于 绝对 地 址 的 指令 和 数据 。 


包含 有 关 如 何 编译 目标 模块 的 简明 描述 ， 以 便 调试 器 可 以 将 机 器 指令 与 C 


链接 器 : 也 叫 链接 编辑 器 ， 
是 一 个 系统 程序 ， 它 将 独 
立 汇编 的 机 器 语言 程序 组 
合 起 来 ， 并 解析 所 有 未 定 
义 的 标签 ， 最 终生 成 可 执 
行文 件 。 


器 ， 它 将 所 有 独立 汇编 的 机 器 语言 程 序 “ 颖 合 ” 在 一 起 。 链 接 器 有 用 的 原因 是 修正 代码 要 比 


重新 编译 和 重新 汇编 快 得 多 。 
链接 器 的 工作 有 三 个 步 又 ; 
1. 将 代码 和 数据 模块 按 符 号 特征 放 入 内 存 。 
2. 决定 数据 和 指令 标签 的 地 址 。 
3. 修正 内 部 和 外 部 引用 。 


链接 器 使 用 每 个 对 象 模块 中 的 重 定 位 信息 和 符号 表 来 解析 所 有 未 定义 的 标签 。 这 些 引 用 
发 生 在 分 支 指令 和 数据 地 址 中 ， 因 此 该 程序 的 工作 与 编辑 器 的 工作 非常 相似 : 它 找 到 旧地 址 
并 用 新 地 址 替换 它们 。“ 编 辑 器 ”是 “链接 编辑 器 ”或 简称 “链接 需 ” 的 原始 名 称 。 

如 果 解 析 了 所 有 外 部 引用 ， 则 链接 器 接 下 来 将 确定 每 个 模块 将 占用 的 内 存 位 置 。 回 想 一 


下 ,图 2-13 显示 了 将 程序 和 数据 分 配给 内 存 的 RISC-V 准则 。 由 于 
文件 是 单独 汇编 的 ， 因 此 汇编 器 无 法 知道 模块 的 指令 和 数据 相对 于 
其 他 模块 的 位 置 。 当 链接 器 将 模块 放 和 内存 时 ， 必 须 重 定位 所 有 的 
绝对 引用 〈 即 与 寄存 器 无 关 的 内 存 地 址 ) 以 反映 其 真实 地 址 。 

链接 器 生成 可 在 计算 机 上 运行 的 可 执行 文件 。 通 常 ， 此 文件 具 
有 与 目标 文件 相同 的 格式 ， 但 它 不 包含 任何 未 解析 的 引用 。 具 有 部 
分 链接 的 文件 是 可 能 的 ， 例 如 库 程 序 ， 在 目标 文件 中 仍然 有 未 解析 
的 地 址 。 


| 例题 | 目标 文件 的 链接 





可 执行 文件 : 一 种 具有 目 
标 文件 格式 的 功能 程序 ， 
不 包含 未 解析 的 引用 。 它 
可 以 包含 符号 表 和 调试 信 
息 。“ 剥 离 的 可 执行 文件 ” 
不 包含 这 些 信 息 ， 可 以 
包括 用 于 加 载 器 的 重 定位 
信息 。 





链接 下 面 的 两 个 目标 文件 。 给 出 已 完成 的 可 执行 文件 的 前 几 条 指令 的 更 新 地 址 。 用 汇编 


语言 显示 指令 只 是 为 了 使 例子 利于 理解 ; 实际 上 ， 指 令 应 是 数字 形式 。 
请 注意 ， 在 目标 文件 中 ， 我 们 用 灰色 表示 链接 过 程 中 必须 更 新 的 地 址 和 符号 : 引用 过 程 
A 和 B 的 地 址 的 指令 ， 以 及 引用 数据 双 字 X 和 YY 的 地 址 的 指令 。 


















































































目标 文件 首部 
过 程 A 
100。 
20。 
正文 段 地 址 指令 
0 1] 7 
E 4 jal x1, 0 
数据 段 0 | (0) 
重 定位 信息 地 址 | 和 令 类 型 依 闲 
0 1d X 
4 jal B 
小 地 址 






















































































30,。 
指令 
TD RS ) 
1 
(Y) 
重 定位 信息 - 地 址 指令 类 型 依赖 
0 sd Y 
4 jal A 
符号 表 标签 地 址 十 
Y 
让 [= 








| 答案 | 过 程 A 需要 找到 load 指令 中 的 可 变 标签 X 的 地 址 ， 并 找到 jal 指令 中 过 程 B 的 地 
址 。 过 程 B 需要 找到 store 指令 中 的 可 变 标 签 Y 的 地 址 ， 及 其 jal 指令 中 过 程 A 的 地 址 。 

从 图 2-14 我 们 知道 正文 段 从 地 址 0000 0000 0040 000016 开 始 ， 数 据 段 从 0000 0000 
1000 000016 开始 。 过 程 A 的 正文 放 在 第 一 个 地 址 ， 数 据 放 在 第 二 个 地 址 。 过 程 A 的 目标 
文件 首部 表示 其 正文 为 10016 字 节 ， 数 据 为 201 字 节 ， 因 此 过 程 B 正 文 的 起 始 地 址 为 40 
010016， 数 据 的 起 始 地 址 是 1000 002016。 


可 执行 文件 首部 



































正文 大 小 300。 
数据 大 小 50,, 
地 址 及 | 
0000 0000 0040 0000,。 | 1d x10, 0(x3) | 


0000 0000 0040 0004,s | jl WL 2 
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0000 0000 0040 0100i5 sd NLL, JELXI) 

0000 0000 0040 0104i5 al R20 
数据 段 地 址 

0000 0000 1000 0000i， (X) 

0000 0000 1000 0020,, (Y) 




















现在 链接 需 更 新 指令 的 地 址 字段 。 它 使 用 指令 类 型 字段 来 获得 要 编辑 的 地 址 格式 。 此 处 
有 三 种 类 型 : 

1. 跳 转 和 链接 指令 使 用 PC 相对 寻 址 。 因 此 ， 对 于 地 址 40 000416 处 的 jal 转 到 40 
010016 (过 程 B 的 地 址 )， 它 必须 在 其 地 址 字段 中 放 入 (40 0100i6-40 000416 ) 或 252io。 同 样 ， 
因为 40 000016 是 过 程 A 的 地 址 ， 在 40 010416 处 的 jal 在 其 地 址 字段 中 放 入 负数 -260io ( 40 
000016-40 010416 )。 

2. load 指令 的 地 址 更 为 复杂 ， 因 为 它们 与 基 址 寄存 器 有 关 。 此 示例 使 用 x3 作为 基 址 
寄存 器 ， 假 设 它 初始 化 为 0000 0000 1000 000016。 为 了 获得 地 址 0000 0000 1000 0000i5 ( 双 
字 X 的 地 址 )， 我 们 在 地 址 40 00001 的 1d 的 地 址 字段 中 放 人 0io。 类 似 地 ， 我 们 在 地 址 40 
010016 的 sd 的 地 址 字段 中 放 入 20i 以 获得 地 址 0000 0000 1000 002016( 双 字 Y 的 地 址 )。 

3. store 指令 地 址 的 处 理 方式 与 load 指令 类 似 ， 只 是 它们 的 $ 型 指令 格式 与 load 指令 
的 I 型 格式 不 同 。 我 们 在 地 址 40 0100is 的 sd 的 地 址 字段 中 放 入 321。， 得 到 地 址 0000 0000 
1000 0020i6 ( 双 字 YY 的 地 址 )。 | 


2.12.4 ”加 载 器 

现在 可 执行 文件 在 磁盘 上 ， 操 作 系 统 将 其 读 取 到 内 存 并 启动 它 。 加 载 器 在 UNIX 系统 中 
遵循 以 下 步骤: 

1. 读 取 可 执行 文件 首部 以 确定 正文 段 和 数据 段 的 大 小 。 








2. 为 正文 和 数据 创建 足够 大 的 地 址 空间 。 加 载 器 : 将 目标 程序 放 在 
3. 将 可 执行 文件 中 的 指令 和 数据 复制 到 内 存 中 。 rc 


4. 将 主 程序 的 参数 (如 果 有 ) 复制 到 栈 顶 。 

5. 初始 化 处 理 融 寄 存 器 并 将 栈 指针 指向 第 一 个 空闲 位 置 。 

6. 跳 转 到 启动 例 程 ， 将 参数 复制 到 参数 寄存 器 中 并 调用 程序 的 主 例 程 。 当 主 例 程 返 回 
时 ， 启 动 例 程 通 过 exit 系统 调用 终止 程序 。 


2.12.5 动态 链接 库 
本 节 首 先 描 述 了 在 程序 运行 之 前 链接 库 文 件 的 传统 方法 。 虽 然 “| 事实 上 ， 计 算 机 科学 中 的 


这 种 静态 方法 是 调用 库 例 程 的 最 快 方法 ， 但 有 一 些 缺 点 : 条 一 个 问题 都 可 以 通过 
。 库 例 程 成 为 可 执行 代码 的 一 部 分 。 如 果 发 布 了 修复 错误 或 支 | 全 
持 新 硬件 设备 的 新 版 本 库 ， 则 静态 链接 程序 仍 将 继续 使 用 旧 | paw pea 
版 本 。 


。 它 会 加 载 执 行 过 程 中 在 任何 位 置 可 能 会 调用 的 所 有 库 的 所 有 例 程 ， 即 使 有 些 例 程 不 一 





定 会 用 到 。 相 对 于 程序 ， 库 可 能 很 大 ， 例如， 运行 在 Linux 操作 系统 上 的 RISC-V 系 
统 的 标准 C 库 是 1.5 MiB。 
这 些 缺 点 引出 了 动态 链接 库 (dynamically linked libraries，DLL )， | 动态 链接 库 ， 在 执行 期 间 
其 库 例 程 在 程序 运行 之 前 不 会 被 链接 和 加 载 。 程 序 和 库 例 程 都 保存 | 链接 到 程序 的 库 例 程 。 
有 关 非 局 部 过 程 及 其 名 字 的 额外 信息 。 在 DLL 的 最 初版 本 中 ， 加 载 
器 运行 一 个 动态 链接 程序 ， 使 用 文件 中 的 额外 信息 来 查找 相应 的 库 并 更 新 所 有 外 部 引用 。 
DLL 初始 版 本 的 缺点 是 ， 它 仍然 链接 了 可 能 被 调用 的 库 的 所 有 例 程 ， 而 不 是 在 程序 运行 
期 间 调用 的 那些 例 程 。 这 种 观察 引出 了 DLL 的 延迟 过 程 链接 版 本 ， 其 中 每 个 例 程 仅 在 被 调 
用 之 后 才 链 接 。 
像 这 个 领域 的 许多 创新 一 样 ， 这 项 技巧 依赖 于 一 个 间接 层次 。 图 2-21 展示 了 这 种 技术 。 
它 从 非 局 部 例 程 开 始 ， 在 程序 结束 时 调用 一 组 虚 例 程 ， 每 个 非 局 部 例 程 有 一 个 人 口 。 每 个 虚 
入 口 都 包含 一 个 间接 跳 转 。 











动态 链接 器 /加 载 器 
重 映射 DLL 例 程 

















a ) 对 DLL 例 程 的 第 一 次 调用 b ) 对 DLL 例 程 的 后 续 调用 


图 2-21 通过 延迟 过 程 链接 动态 链接 库 。a) 第 一 次 调用 DLL 例 程 的 步 又 。b) 在 后 续 调用 
中 跳 过 查找 例 程 、 重 映射 例 程 和 链接 例 程 的 步 又 。 正 如 我 们 将 在 第 5 章 中 看 到 的 那 
样 ， 操 作 系统 可 以 通过 使 用 虚拟 内 存 管 理 对 其 进行 重 映射 来 避免 复制 所 需 的 例 程 


第 一 次 调用 库 例 程 时 ， 程 序 调 用 虚 和 人 口 并 执行 间接 跳 转 。 这 个 跳 转 指向 一 段 代码 ， 它 将 
一 个 数字 放 和 人 寄存 器 来 识别 所 需 的 库 例 程 ， 然 后 跳 转 到 动态 链接 器 / 加载 器 。 链 接 器 / 加 载 
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器 找到 所 需 的 例 程 ， 重 新 映射 它 ， 并 更 改 间接 跳 转 位 置 中 的 地 址 以 指向 该 例 程 。 然 后 跳 转 到 
这 个 例 程 。 例 程 完成 后 ， 它 将 返回 到 初始 调用 点 。 此 后 ， 它 都 会 间接 跳 转 到 该 例 程 而 不 需 额 
外 的 中 间 过 程 。 

总 之 ，DLL 需要 额外 的 空间 来 存储 动态 链接 所 需 的 信息 ， 但 不 要 求 复 制 或 链接 整个 库 。 
它们 在 第 一 次 调用 例 程 时 会 付出 大 量 的 开销 ， 但 此 后 只 需 一 个 间接 跳 转 。 请 注意 ， 从 库 返 回 
不 会 产生 额外 的 开销 。 微 软 的 Windows 广泛 依赖 动态 链接 库 ， 如 今 UNIX 系统 上 程序 执行 
的 默认 设置 也 是 使 用 动态 链接 库 。 


2.12.6 ”启动 Java 程序 


上 面 的 讨论 主要 描述 了 执行 程序 的 传统 模型 ， 重 点 在 于 以 特定 指令 系统 体系 结构 甚至 体 
系 结构 的 特定 实现 为 目标 的 程序 的 快速 执行 。 实 际 上 ， 可 以 像 C 一 样 执行 Java 程序 。 然 而 ， 
Java 是 为 了 不 同 的 目标 而 发 明 的 ， 目 标 之 一 是 能 在 任何 计算 机 上 安全 运行 ， 即 使 它 可 能 会 延 
长 执行 时 间 。 

图 2-22 显示 了 Java 典型 的 转换 和 执行 步骤 。Java 不 是 编译 成 目标 计算 机 的 汇编 语言 ， 
而 是 首先 编译 成 易于 解释 的 指令 : Java 字 节 码 指令 系统 (参见 2.15 
节 )。 该 指令 系统 被 设计 得 非常 接近 Java 语言 ， 因 此 编译 步骤 相对 
简单 ， 实 际 上 没有 进行 任何 优化 。 与 C 编译 器 一 样 ，Java 编译 器 检 
查 数据 类 型 并 为 每 种 类 型 生成 正确 的 操作 。Java 程序 转化 为 这 些 字 


节 码 的 二 进 制 形式 。 


类 文件 ( Java 字 节 码 ) Java 库 例 程 ( 机 器 语言 
即时 编译 器 - 


已 编译 的 Java 方 法 ( 机 器 语言 


图 2-22 ”Java 的 转换 层次 结构 。Java 程序 首先 被 编译 成 Java 字 节 码 的 二 进 制 版 本 ， 所 有 地 
址 都 由 编译 器 定义 。Java 程序 现在 可 以 在 解释 器 上 运行 ， 称 为 Java 虚拟 机 (JVM)。 
程序 运行 时 ，JVM 链接 到 Java 库 中 所 需 的 方法 。 为 了 获得 更 高 的 性 能 ，JVM 可 以 
调用 JIT 编译 器 ， 该 编译 器 有 选择 地 将 方法 编译 为 运行 它 的 机 器 的 本 地 机 器 语言 


Java 字 节 码 : 为 解释 Java 
程序 而 设计 的 指令 系统 中 
的 指令 。 











称 为 Java 虚拟 机 ( JVM) 的 软件 解释 器 可 以 执行 Java 字 节 码 。 | Java 虚 拟 机 : 解释 Java 
解释 器 是 一 个 模拟 指令 系统 体系 结构 的 程序 。 例 如 ， 本 书 使 用 的 ”| 字 节 码 的 程序 。 
RISC-V 模拟 器 是 一 个 解释 器 。 由 于 转换 非常 简单 ， 所 以 地 址 可 以 由 
编译 器 填写 或 在 运行 时 被 JVM 发 现 ， 不 需要 单独 的 汇编 步骤 。 

解释 的 优点 是 可 移植 性 。Java 虚拟 机 软件 的 可 用 性 意味 着 大 多 数 人 可 以 在 Java 发 布 后 
不 久 编写 和 运行 Java 程序 。 如 今 ，Java 虚拟 机 可 以 在 数 十 亿 台 设备 中 找到 ， 从 手机 到 互联 
网 浏览 器 。 
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解释 的 缺点 是 性 能 较 低 。20 世纪 80 年 代 和 90 年 代 令 人 难以 置信 的 性 能 提升 使 得 许多 
重要 应 用 程序 的 解释 成 为 可 能 ， 但 与 传统 编译 的 C 程序 相 比 ，10 倍 的 速度 差距 使 Java 对 某 
些 应 用 程序 没有 吸引 力 。 

为 了 保持 可 移植 性 并 提高 执行 速度 ，Java 发 展 的 下 一 阶段 目标 | 即时 编译 器 : 对 一 类 编译 
是 设计 在 程序 运行 时 翻译 的 编译 器 。 这 样 的 即时 编译 器 ( JIT) 通常 | 器 的 通用 名 称 ， 该 关 编 译 
ae. 以 找到 “热点 ”方法 所 在 的 位 置 ， ee 
然后 将 它们 翻译 成 (运行 虚拟 机 的 ) 宿主 机 对 应 的 指令 。 编 译 过 的 部 “| 上 6 机 村 语 计 
分 将 在 下 次 运行 程序 时 保存 ， 以 便 每 次 运行 时 速度 更 快 。 这 种 解释 
和 编译 的 平衡 随 着 时 间 的 推移 而 发 展 ， 因 此 经 常 运行 的 Java 程序 几乎 没有 解释 的 开销 。 

随 着 计算 机 的 速度 变 得 越 来 越 快 ， 编 译 器 也 变 得 更 为 强大 ， 并 且 随 着 研究 人 员 发 明 出 更 
好 的 动态 编译 Java 的 方法 ，Java 与 C 或 C ++ 之 间 的 性 能 差距 正在 缩小 。2.15 节 将 更 深入 地 
介绍 Java、Java 字 节 码 、JVM 和 JIT 编译 器 。 





一 
“自我 检测 ”对 于 Java 的 设计 者 来 说 ， 解 和 名 相对 于 翻译 加 的 叶 上 优势 最 重要 
1. 解释 器 易于 编写 
2. 更 准确 的 错误 信息 
3. 更 少 的 目标 代码 
4. 机 器 独立 性 和 


2.13 以 C 排序 程序 为 例 的 汇总 整理 


以 片段 形式 展示 汇编 语言 代码 的 一 个 危险 是 ， 读 者 将 不 知道 完整 的 汇编 语言 程序 是 怎样 
的 。 在 本 节 中 ， 我们 给 出 了 两 个 C 过程 的 RISC-V 代码 : 一 个 用 于 交换 ( swap) 数组 元 素 ， 
另 一 个 用 于 对 它们 进行 排序 (sort)。 


2.13.1 swap 过程 


让 我 们 从 图 2-23 中 交换 过 程 的 代码 开 void swap(long long int v[], size_t k) 
始 。 此 过 程 是 交换 内 存 中 的 两 个 位 置 。 当 手 。 | 


long long int temp; 





动 把 C 程序 翻译 成 汇编 语言 时 ， 我 们 遵循 以 temp = 
es 
下 步骤 : vEk+1] = temp; 
1. 为 程序 中 的 变量 分 配 寄存 器 。 
2. 为 过 程 体 生成 汇编 代码 。 图 2-23 交换 内 存 中 两 个 位 置 的 C 过 程 。 本 小 
3. 保存 过 程 调 用 间 的 寄存 器 。 节 在 排序 示例 中 使 用 此 过 程 


本 节 按 这 3 个 部 分 描述 swap 过 程 ， 最 
后 将 所 有 部 分 合并 到 一 起 。 

swap 的 寄存 器 分 配 

如 2.8 节 中 所 述 ，RISC-V 的 参数 传递 默认 使 用 寄存 器 x10 到 x17。 由 于 swap 只 有 两 
个 参数 v 和 k， 因 此 可 以 在 寄存 器 x10 和 x11 中 保存 。 唯 一 的 一 个 变量 是 temp ， 我 们 用 寄 
存 器 x5 来 保存 它 ， 因 为 swap 是 一 个 叶 过 程 (参见 2.8.2 节 )。 该 寄存 器 分 配对 应 于 图 2-23 
中 swap 过 程 第 一 部 分 的 变量 声明 。 
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swap 过 程 体 的 代码 

swap 剩余 的 C 代码 如 下 所 示 : 

temp = v[k]:; 

v[k]J =" VERELI]S 

vLk+1] = temp; 

回想 一 下 ，RISC-V 的 内 存 地 址 是 字 节 寻 址 ， 因 此 双 字 实际 上 相差 8 个 字 节 。 因 此 ， 在 将 索 
引 k 与 地 址 相 加 之 前 ， 需 要 将 索引 k 乘 以 8。 忘记 相 邻 的 双 字 地 址 间 相 差 8 而 不 是 1 是 汇编 
语言 编程 中 常见 的 错误 。 因 此 ， 第 一 步 是 通过 左 移 3 位 使 k 乘 8 以 得 到 v[k] 的 地 址 : 


S]1i 站 X13 // reg x6 =k *8 
add WIIQ GE ASS 和 二 人 
现在 我 们 使 用 x6 加 载 v[k] ， 然 后 通过 向 x6 加 8 来 加 载 v[k + 1]: 


1d Xx5, QO(x6) // reg x5 (temp) = v[Lk] 
1d NTE BXOY 信人 
// refers to next element of vy 


接 下 来 ,我 们 将 x5 和 x7 中 的 值 存储 到 交换 的 地 址 : 


sd x7, O(x6) yy YEKY 


= reg X7 
sd KD, B83(X6) // v[k+l] = 


reg x5 (temp) 


现在 我 们 已 经 分 配 了 寄存 器 并 且 翻 译 好 了 程序 的 代码 。 剩 下 的 是 保存 swap 程序 中 使 用 过 的 
保留 寄存 器 。 因 为 在 这 个 叶 过 程 中 没有 使 用 保留 寄存 器 ， 所 以 没有 需要 保存 的 寄存 器 。 
完整 的 swap 过 程 
我 们 现在 已 经 得 到 完整 的 例 程 。 剩 下 的 就 是 添加 过 程 标签 和 返回 跳 转 。 


swap 
sl1li xB, wll 3 // Feg XG = kB 
add x XL0s x6 f{/ reg Xx& = 4 (kK) 
1d XS CNB // reg x5 (temp) = v[Lk] 
1d Xx/ BCXO.) Li/ Veg Xr = VEK $$ 1 
sd X7 Q(x6) // v[k] = reg x7 
sd x5. (X06) // v[Lk+1] = reg x5 (temp) 
jalr TO OX1IY // return to calling routine 


2.13.2 ”sort 过 程 


为 了 确保 读者 能 够 理解 汇编 语言 中 编程 的 严谨 性 ， 我 们 将 尝试 第 二 个 更 长 的 示例 。 在 这 
种 示例 中 ,我 们 将 构建 一 个 调用 swap 过 程 的 例 程 。 这 个 程序 使 用 冒 泡 或 交换 排序 对 整数 数 
组 进行 排序 ， 这 是 最 简单 的 排序 之 一 ， 但 不 是 最 快 的 排序 。 图 2-24 显示 了 该 程序 的 C 语言 
版 本 。 我 们 还 是 以 几 个 步 又 介绍 此 程序 ， 并 在 最 后 将 它们 组 合 到 一 起 。 


voi ort (ong Tena. Tt vi, Size tt mt ni 
{ 


人 
VE Ty 





图 2-24 对 数组 v 执行 排序 的 C 过 程 
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sort 的 寄存 器 分 配 

过 程 sort 的 v 和 n 两 个 参数 保存 在 参数 寄存 器 x10 和 x11 中 ， 我 们 将 寄存 器 x19 分 
配给 1， 并 将 x20 分 配给 j。 

sort 过 程 体 的 代码 

过 程 体 由 两 个 嵌 套 的 for 循环 和 一 个 包含 参数 的 swap 调用 组 成 。 让 我 们 从 外 而 内 展开 
代码 。 

第 一 个 翻译 步骤 是 第 一 个 for 循环 : 

fo (tT sr Qo TE Wm Te LY 4 
回想 一 下 ，C 的 for 语句 有 三 个 部 分 : 初始 化 、 循 环 判断 和 循环 增值 。 只 需要 一 条 指令 就 可 
以 将 i 初始 化 为 0， 这 是 for 语句 的 第 一 部 分 : 

1] Bs Po 
(请 记 住 ，11i 是 汇编 器 为 了 方便 汇编 语言 程序 员 而 提供 的 伪 指 令 ; 请 参阅 2.12.2 节 。) 它 只 需 
要 一 条 指令 来 递增 i ， 即 for 语句 的 最 后 一 部 分 : 

二 人 9 
如 果 i<n 非 真 ， 则 应 该 退出 循环 ， 换 句 话说， 如 果 i > n， 则 应 该 退出 。 此 判断 只 需 一 条 
指令 : 

forltst: bge X19，xl1，exitl // go to exitl if x19 > xl (i2n) 
循环 的 底部 只 是 跳 转 回 到 循环 判断 处 : 


1 Dor bag // branch to test of outer loop 


eitls 
那么 第 一 个 for 循环 的 代码 框架 是 
下 下 过 上 全 诊 Fi 
过 5 
bge Xx19，Xx1l11，exit1l HM go0 to exitl Tf XL9 2 XL CT2n) 


(body of first for loo0p) 


addi Xi XL LL A 这 
1 Torltst // branch to test of outer loop 
exitl: 


瞧 !《〈 练 习 部 分 将 探究 为 类 似 的 循环 编写 更 快 的 代码 。) 

第 二 个 for 循环 的 C 语句 如 下 : 

To Clim T= Ted > 0 Be VI ST td md 
该 循环 的 初始 化 部 分 仍然 是 一 条 指令 : 

addi 人 Ce 
循环 结束 时 j 的 自 减 也 是 一 条 指令 : 

addi 2 0 R20 I 


循环 判断 有 两 个 部 分 。 如 果 任 一 条 件 为 假 ， 我 们 退出 循环 ， 因 此 如 果 第 一 个 判断 (j《<0) 为 
假 则 必须 退出 循环 : 
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Moatsts 
blt XS0, KO exit Vr do to Emita Tf R20 x VO AI RE 0) 


该 分 支 将 跳 过 第 二 个 条 件 判 断 。 如 果 没有 跳 过 ， 则 j = 0。 
如 果 第 二 个 判断 v[j] > v[j+1] 非 真 , 或 者 如 果 v[j] < v[j+1]， 则 退出 。 首 先 ， 
我 们 通过 将 j 乘 以 8 (因为 我 们 需要 一 个 字 节 地 址 ) 来 创建 地 址 并 将 其 加 到 v 的 基 址 上 : 


Si XS5, X20 3 A Td 

add SS ， 及 5 AR 
现在 我 们 加 载 v[j ] : 

1d Xb D(XSY // reg x6 = v[Lj] 


因为 我 们 知道 第 二 个 元 素 是 紧 跟 的 一 个 双 字 ， 所 以 ， 将 寄存 器 x5 中 的 地 址 加 8， 得 到 
Vi 可 于 1 


1d 站 7 ‘BRD 人 人 
我 们 判断 v[j] < v[j+1] 以 退出 循环 : 

ble 6 并 济 和 2 VY 0 bo Bit2 if XE < A 
循环 的 底部 跳 转 回 到 内 循环 判断 处 : 

for2tst // branch to test of inner loop 
将 这 些 部 分 结合 到 一 起 ， 第 二 个 for 循环 的 代码 框架 是 这 样 的 : 


gi 0 9 相 类 洒 有 主 庆 并 
foretsts ‘blt X20 XO exXite 1 to exite TE R20 < OW (F< 0) 


Sl 203 /7 reg X55 = j*8 

add po XA/ TE = 
ld x6 , O(N) // reg x6 = v[j] 

1d XT BCR A reg x7 svEj $1] 


ble WE 7 Rit2 7 
(body of second for 1oop) 


addi ‘X20 X20, 1 A 
j for2tst // branch to test of inner 100p 
exit2: 


sort 中 的 过 程 调用 
下 一 步 是 翻译 第 二 个 for 循环 的 循环 体 : 
swap(v,j); 

调用 swap 很 容易 : 


jal xl, swap 


sort 中 的 参数 传递 

当 传 递 参数 时 间 题 就 出 现 了 ， 因 为 sort 过 程 需 要 寄存 器 x10 和 x11 中 的 值 ， 但 
swap 过 程 需要 将 其 参数 放 在 那些 相同 的 寄存 器 中 。 一 种 解决 方案 是 在 过 程 较 早 的 地 方 将 
sort 中 的 参数 复制 到 其 他 寄存 器 中 ， 使 得 寄存 器 x10 和 x11 在 调用 swap 时 可 用 。( 这 个 
复制 比 在 栈 上 保存 和 恢复 更 快 。) 我 们 首先 在 过 程 中 将 x10 和 x11 复制 到 x21 和 x22: 


mv 2 六 10 // copy parameter x10 into x21 
I 关 多 2 并 1 于 // copy parameter xl1ll into x22 
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然后 用 这 两 个 指令 将 参数 传递 到 swap: 


六 VW LO。 2 
WY 0 


// first swap parameter is vy 
// second swap parameter is jj 


保留 sort 中 的 寄存 器 

唯一 剩 下 的 代码 是 寄存 器 的 保存 和 恢复 。 显 然 ， 我 们 必须 在 寄存 器 xl 中 保存 返回 地 址 ， 
因为 sort 是 一 个 过 程 并 且 调 用 自己 。sort 过 程 还 使 用 被 调用 者 保存 的 寄存 器 x19、x20、 
x21 和 Xx22， 因 此 必须 保存 它们 。 所 以 sort 的 过 程 头 如 下 : 


addi SDs 志和， = // make room on stack for 5 regs 
sd Rl Sat // Save xl on stack 
sd X22，24(Sp) // Save x22 on stack 
sd X21, Lo(SD) // save x21 on stack 
sd x20，8(sp) // save x20 on stack 
sd XL9, Otsp) // save x19 on stack 


过 程 尾 简单 地 反 转 所 有 这 些 指令 ， 然 后 加 一 个 jalr 以 便 返 回 。 
完整 的 sort 过 程 
现在 我 们 将 所 有 部 分 放 在 一 起 ， 如 图 2-25 所 示 ， 注 意 在 for 循环 中 用 寄存 器 x21 和 

x22 替换 对 寄存 器 x10 和 x11 的 引用 。 再 一 次 ， 为 了 使 代码 更 容易 理解 ， 我 们 用 过 程 中 的 

每 个 代码 块 的 用 途 来 标识 它们 。 在 此 示例 中 ，C 中 的 9 行 sort 过 程 在 RISC-V 汇编 语言 中 























变 为 34 行 。 
保存 寄存 器 
sort: addi Sp, Sp =40 # make room on stack for 5 registers 
sd x1 32(spD) # save return address on stack 
sd x22: .24(8D} # save x22 on stack | 
sd. x21, 16(sp) # save x21 on stack | 
sd, x20,. 8(sp) # save x20 on stack 
sd x19, 0(sp) # save x19 on stack | 
过 程 体 
a LI # copy parameter x10 into x21 
移动 参数 人 # copy parameter xll into x22 
Ly i ht #i= 0 
外 循环 forltst:bge xl9, X22 exitkl # go to exitl if i >= n 
dddil X20 Ld =1 i 
foretestsblt x20, XO0, exit2 | 
ol li 6 W202 洲 X5 二 了 去 各 
内 循环 dud KH 2 和 
id, 26, Q(X5 # x6 = v[Lj] 
Td x Qty # x7 = v[j + 1] 
ble x6, x7, exit2 # g9, Teo: exit2 if XE < NX7 
mv x10, x21 # first swap parameter is v 
参数 传递 和 调用 mv xl1，x20 # second swap parameter is j 
jal xl, swap # call swap 
| 
4 addil X20 X20 < 1 for2tst 
| 内 循环 j For2tst # go to for2tst 
4 exit2» addi x19; x191] #1 和 = 1 
外 循环 1 Tarltst # go to forltst 














图 2-25 图 2-24 的 sort 过 程 的 RISC-V 汇编 代码 
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恢复 寄存 器 




















exitls Td xld, OCsny # restore x19 from stack 
1d: &20, 8(sp) # restore x20 from stack 
ld R21 6CSE) # restore x21 from stack 
Id X22 ZA4(Sp6) # restore x22 from stack 
Ee 1 te a od # restore return address from stack 
addi SB: SE: 4 # restore stack pointer 
过 程 返回 
jalr X00 OCxl) # return to calling routine 
图 2-25 ( 续 ) 


| 详细 阐述 这 个 例子 中 一 个 有 效 的 优化 是 过 程 内 联 。 在 调用 swap 过 程 的 代码 出 现 的 地 
方 ， 编 译 器 将 从 swap 过 程 体 中 复制 代码 ， 而 不 是 传递 参数 和 使 用 jal 指令 调用 代码 。 在 这 
个 例子 中 ， 内 联 将 避免 使 用 四 条 指令 。 内 联 优化 的 缺点 是 如 果 从 多 个 地 方 调用 内 联 过 程 ， 编 
译 后 的 代码 会 增 太 。 如 果 因 此 增加 了 cache 失效 率 ， 这 样 的 代码 扩展 可 能 导致 性 能 较 低 ; 参 
见 第 5 章 。 

| 理解 程序 性 能 图 2-26 显示 了 编译 器 优化 对 sort 程序 性 能 、 编 译 时 间 、 时 钟 周 期 、 指 
令 数 和 CPI 的 影响 。 请 注意 ， 未 经 优化 的 代码 具有 最 佳 的 CPI， 而 O1 优化 具有 最 少 的 指令 
数 ， 但 03 是 最 快 的 ， 这 说 明 执 行 时 间 是 程序 性 能 的 唯一 准确 度量 。 

















相对 性 能 
无 优化 1.00 158 615 114 938 1.38 
01 ( 中 级 ) 37 66 990 37 470 1.79 
02 ( 完全 ) 2.38 66 521 39 993 1.66 
03 ( 过 程 集成 ) 2:41 65 747 44 993 1.46 























图 2-26 冒 泡 程序 使 用 编译 器 优化 后 的 性 能 、 指 令 数 和 CPI 的 比较 。 程 序 将 数组 初始 化 为 
随机 值 ， 对 100 000 个 32 位 字 进 行 排序 。 这 些 程序 在 奔腾 4 上 运行 ， 时 钟 频率 为 
3.06GHz， 系 统 总 线 为 5333MHz， 内 存 大 小 为 2GB 的 PC2100 DDR SDRAM。 操作 
系统 版 本 为 Linux 版 本 2.4.20 


图 2-27 比较 了 编程 语言 、 编 译 与 解释 以 及 算法 对 各 种 性 能 的 影响 。 第 4 列 显示 对 于 冒 
泡 排 序 来 说 ， 未 优化 的 C 程 序 比 解释 型 的 Java 代码 快 8.3 倍 。 使 用 JIT 编译 器 使 Java 比 未 
优化 的 C 语言 快 2.1 倍 ， 并 且 比 使 用 最 高 优化 的 C 代码 也 就 慢 不 到 1.13 倍 。( 2.15 节 给 出 了 
有 关 Java 的 解释 与 编译 以 及 置 泡 的 Java 和 jalr 代 码 的 更 多 细节 。) 第 5 列 中 快速 排序 的 比 
率 并 不 接近 ， 可 能 是 因为 在 较 短 的 执行 时 间 内 分 挫 运 行 时 编译 的 成 本 更 难 。 最 后 一 列 演示 了 
更 好 的 算法 带 来 的 影响 ， 当 排序 100 000 个 元 素 时 ， 带 来 了 三 个 数量 级 的 性 能 提升 。 即 使 将 
第 5 列 中 的 解释 型 Java 与 第 4 列 中 最 高 优化 的 C 代码 进行 比较 ， 快 速 排序 也 会 比 冒 泡 排 序 
快 50 倍 (0.05x2468 或 123/2.41 )。 
















快速 排序 相对 


执行 模式 优化 选项 冒 泡 排序 相对 性 能 | 快速 排序 相对 性 能 冒 泡 排序 加 速 比 





























C 1.00 1.00 | 2468 
编译 器 01 2.37 1.50 | 1562 

| ”编译 器 02 2.38 1.50 | 1555 

编译 器 03 2.41 1.91 | 1955 

Java | 解释 器 | = 0.12 0.05 1050 
即时 编译 器 — 3 | 0.29 338 




















图 2-27 两 个 排序 算法 的 性 能 ,分别 使 用 C 和 Java， 以 及 分 别 采 用 解释 和 优化 编译 器 相对 
于 未 优化 的 C 版 本 的 对 比 。 最 后 一 列 显 示 了 针对 每 种 语言 和 执行 选项 的 快速 排序 
相对 于 冒 泡 排序 的 性 能 优势 。 这 些 程 序 在 与 图 2-26 相同 的 系统 上 运行 。JVM 版 本 
是 Sun 1.3.1，JIT 版 本 是 Sun Hotspot 1.3.1 


2.14 数组 与 指针 


理解 指针 对 于 所 有 C 程序 员 新 手 来 说 都 是 具有 挑战 的 。 通 过 比较 使 用 数组 和 数组 下 标的 
汇编 代码 与 使 用 指针 的 汇编 代码 ， 可 以 从 本 质 上 理解 指针 。 本 节 展 示 了 清除 内 存 中 一 个 双 字 
序列 的 两 个 过 程 的 C 和 RISC-V 汇编 版 本 : 一 个 使 用 数组 下 标 ， 另 一 个 使 用 指针 。 图 2-28 给 
出 了 这 两 个 C 过 程 。 


clearl(long long int array[], size _t int size) 
{ 


Sz bts 
To (1 = Qe 1 
array[i] = 0; 


} 
clear2(long long int *array, Size t int size) 
{ 


long long int *p; 
for (p = &array[0]: p < &array[size]; p=p+1) 
#0 


p 





图 2-28 将 一 个 数组 全 部 清 零 的 两 个 C 过 程 。c1earl 使 用 下 标 ， 而 clear2 使 用 指针 。 
对 于 不 熟悉 C 的 人 ， 第 二 个 过 程 需要 做 一 些 解 释 。 变 量 的 地 址 用 & 表示 ， 而 指针 
指向 的 对 象 用 * 表示 。 声 明 部 分 则 声明 了 array 和 p 是 整数 的 指针 。c1ear2 中 
for 循环 的 第 一 部 分 将 array 的 第 一 个 元 素 的 地 址 分 配给 指针 p。for 循环 的 第 二 
部 分 判断 指针 是 否 指向 超出 array 的 最 后 一 个 元 素 。 在 for 循环 的 底部 将 指针 递 
增 1， 意 味 着 将 指针 移动 到 其 声明 大 小 的 下 一 个 顺序 对 象 。 由 于 p 是 指向 整数 的 指 
针 ， 编 译 器 会 生成 RISC-V 指令 将 p 递增 8， 即 RISC-V 整数 中 的 字 节 数 。 在 循环 
中 将 0 赋 给 p 指向 的 对 象 


本 节 的 目的 是 展示 指针 如 何 映射 到 RISC-V 指令 ， 而 不 是 支持 一 种 过 时 的 编程 风格 。 在 
本 节 末 尾 ， 将 看 到 现代 编译 优化 对 这 两 个 过 程 的 影响 。 
2.14.1 用 数组 实现 clear 


首先 从 数组 版 本 的 clearl 开始 ， 重 点 关注 循环 体 并 忽略 过 程 链接 代码 。 假 设 两 个 参数 
array 和 size 分 别 在 寄存 器 x10 和 x11 中 ， 并且 给 i 分配 寄存 器 x5。 
for 循环 的 第 一 部 分 ，i 的 初始 化 是 很 简单 的 : 


站 XS 0 //1=0(register x5 = 0) 
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要 将 array[i] 设置 为 0， 必 须 首先 获取 其 地 址 。 先 将 i 乘 以 8 得 到 字 节 地 址 : 
LenBpla sli > | 
由 于 数组 的 起 始 地 址 在 寄存 器 中 ， 必 须 使 用 加 法 指令 将 其 加 到 下 标 中 以 获取 array[i] 的 
地 址 : 
91 WS. 4 A // x7 = address of array[i] 
最 后 ， 即 可 将 0 存 到 该 地 址 : 
0 .4 0 tp arrayliid sa 
这 条 指令 是 循环 体 的 结尾 ， 因 此 下 一 步 是 增加 i 值 : 
addi x5, XH5, 1 /| 
循环 测试 检测 i 是 否 小 于 s ize: 
Blt RS Rll loopl A Tf {i < Sizey g0 to Gonl 
现在 已 经 得 到 了 程序 的 所 有 片段 。 以 下 是 使 用 下 标 对 数组 清 零 的 RISC-V 代码 : 


1i x 0 // i=0 
le6pBds 1 6 SG 访 A 
add Xx 6 // x7 = address of array[i] 
sd KO A AreayLi] = 0 
addi 5 1 4 和 


blt 5 X11 loopl Wr TK Sizedl oo Li6 owntl 


(只 要 size 大 于 0， 此 代码 就 能 正确 工作 ; ANSI C 需要 在 循环 之 前 测试 size， 但 我 
们 将 在 此 处 跳 过 该 合法 性 。) 
2.14.2 ”用 指针 实现 clear 

使 用 指针 的 第 二 个 过 程 给 两 个 参数 array 和 size 分 别 分 配 寄存 器 X10 和 x11， 并 给 
p 分 配 寄存 器 x5。 第 二 个 过 程 的 代码 首先 把 指针 p 赋值 为 数组 第 一 个 元 素 的 地 址 : 

mv X555 X10 // p = address of array[0] 

以 下 代码 是 for 循环 体 , 将 0 存 人 p: 

loop2: sd x0, 0(x5) // Memory[p] = 0 
这 条 指令 实现 循环 体 ， 因 此 以 下 代码 迭代 增加 ， 即 修改 p 以 指向 下 一 个 双 字 : 

addi 区号 六 入 起 ri B= 

在 C 语言 中 ， 指 针 自 增 1 意味 着 将 指针 移动 到 下 一 个 序列 对 象 。 由 于 p 是 声明 为 1ong 
1ong int 的 指向 整数 的 指针 ， 且 每 个 整数 占用 8 个 字 节 ， 所 以 编译 器 将 p 增加 8。 

接 下 来 是 循环 测试 。 首 先 计 算 array 的 最 后 一 个 元 素 的 地 址 。 先 将 size 乘 以 8 得 到 
它 的 字 节 地 址 : 

站 六 次， 久 // x6 = Size * 8 

然后 将 乘积 加 上 数组 的 初始 地 址 得 到 数组 之 后 的 第 一 个 双 字 的 地 址 : 


add XW LN // x7 = address of array[size] 
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循环 测试 只 需要 判断 p 是 否 小 于 array 的 最 后 一 个 元 素 : 
Bltw Xd, XX: OBE // if (p<&array[Lsize]) go to loop2 
完成 所 有 片段 后 ， 可 以 给 出 将 数组 清 零 的 指针 版 的 代码 : 


1 // p = address of array[0] 
100p2 : sd x0, 0(x5) // Memory[p] = 0 

addi 又 57 X53 阁 J 区 二 本 - 寺 : 滞 

SU We Wd- /i 兴 次 

add 7: 0 // x7 = address of array[size] 


bltu x5, x7, loop2 // if (p<&array[size]) go to 100p2 


与 第 一 个 示例 一 样 ， 此 代码 假定 size 大 于 0。 
注意 ， 该 程序 在 循环 的 每 次 迭代 中 均 计 算数 组 未 端 地 址 ， 即 使 它 没有 改变 。 更 快 的 代码 
版 本 是 将 该 计算 移出 循环 : 


my p a 妆 卫 0 // p = address of array[0] 

sl Ne LE 3 // x6 = size * 8 

add 7 6 // x7 = address of array[sSize] 
loop2: sd X00 Q(X5 // Memory[p] = 0 

addy XS XH 8 /I/p=p+8 


bitu x XxX/ Loop2 // if (p < &array[size]) go to loop? 


2.14.3 ”比较 两 个 版 本 的 clear 
并 列 比较 两 个 代码 序列 以 表明 数组 下 标 和 指针 之 间 的 区 别 : 


1i x5, 0 1/i=0 my x5, x10 // p = address of array[0] 
loopl: slli x6, x5, 3 // x6 = i*8 有 二 和 /1/ x6 = size * 8 
add x7, x10, x6 // x7 = address of array[i] add x7, x1l0,. x6 // x7 = address of array[size] 
sd x0, 0(x7) // array[i] = 0 loop2: sd x0, 0(x5) // Memory[p] = 0 
addi x5, x5, 1 本 addi x5, x5, 8 Np=-p*+8 
blt x5, xll, loopl // if (i < size) go to loopl blitu x5, x7, loop2 // if (p < &array[size]) go to loop2 


左 侧 的 版 本 在 循环 内 必须 具有 “ 乘 ” 和 加 ， 因 为 i 增加 了 ， 每 个 地 址 必须 由 新 的 下 标 重 
新 计算 。 右 侧 的 内 存 指针 版 本 直接 增加 指针 p。 指 针 版 本 把 实现 缩放 的 移 位 操作 和 数组 相关 
的 加 法 操作 移 到 循环 外 ， 从 而 将 每 次 迭代 执行 的 指令 从 5 条 减少 到 3 条 。 这 种 手动 优化 对 应 
于 强度 削弱 ( 移 位 代替 乘法 ) 和 循环 变量 消除 (消除 循环 内 的 数组 地 址 计算 ) 的 编译 器 优化 。 
2.15 节 描 述 了 这 两 个 优化 及 其 他 许多 优化 。 

| 腾 顷 曾 表 正如 前 面 所 提 到 的 ，C 编译 器 会 增加 一 个 检测 来 确保 Size 大 于 0。 一 种 方 
法 是 在 循环 后 用 blt x0,x11,afterLoop 跳 转 到 该 指令 。 

| 琶 辣 程序 性 癸 我 们 曾经 教育 程序 员 要 在 C 中 使 用 指针 来 获得 比 数组 更 高 的 效率 : 
Ce 
大 多 数 程序 员 更 倾向 于 让 编译 器 去 做 繁重 的 工作 。 


2.15 ”高 级 专题 编译 C 语言 和 解释 Java 语言 
本 节 简 要 概述 C 编译 器 的 工作 原理 及 Java 的 执行 方式 。 因 为 编译 器 将 显著 影响 计算 机 


性 能 ， 所 以 理解 编译 器 技术 是 理解 性 能 的 关键 。 记 住 ,“ 编 译 器 的 构建 ”课程 通常 需要 1 或 2 
个 学 期 的 讲授 ， 因 此 我 们 的 介绍 只 涉及 基本 内 容 。 
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面向 对 Java 这 样 的 面向 对 象 语言 如 何在 RISC-V 体系 结构 上 执 ”| 面向 对 象 语言 ， 一 种 面向 
行 感 兴趣 的 读者 。 本 节 展 示 用 于 解释 的 Java 字 节 码 和 前 面 章节 中 某 | 对 象 而 非 动作 ， 或 面向 数 
些 C 程序 段 的 Java 版 本 的 RISC-V 代码 ， 包 括 冒 泡 排序 ， 并 将 涵盖 | 所 而 非 远 辑 的 编程 语言 
Java 虚拟 机 和 即时 (JIT) 编译 髓 。 

本 节 剩 余 内 容 可 在 配套 网 站 找到 。 


2.16 实例 : MIPS 指令 


与 RISC-V 最 为 相似 的 指令 系统 MIPS 也 起 源 于 学 术 界 ， 但 现在 已 属于 Imagination 
Technologies。 尽 管 MIPS 先 于 RISC-V 25 年 (出现 ), 但 MIPS 和 RISC-V 有 着 相同 的 设计 理 
念 。 好 在 如 果 了 解 RISC-Vv， 那么 拾 起 MIPS 将 非常 容易 。 为 了 展现 它们 的 相似 性 ， 图 2-29 
比较 了 RISC-V 和 MIPS 的 指令 格式 。MIPS ISA 既 有 32 位 版 本 ， 又 有 64 位 版 本 ， 分 别 对 应 
于 MIPS-32 和 MIPS-64。 除 了 需要 更 大 的 地 址 外 (64 位 寄存 器 而 非 32 位 寄存 器 )， 这 些 指令 
系统 几乎 完全 相同 。 以 下 是 RISC-V 和 MIPS 的 共同 特征 : 

对 于 两 种 体系 结构 ， 所 有 指令 都 是 32 位 宽 。 

e 两 者 均 有 32 个 通用 寄存 器 ， 其 中 一 个 寄存 器 硬 连 线 为 0。 

e 访问 内 存 的 唯一 方法 是 通过 两 种 体系 结构 的 加 载 和 存储 指令 。 

e 与 其 他 一 些 体系 结构 不 同 ， 在 MIPS 或 RISC-V 中 ,没有 可 以 加 载 或 存储 许多 寄存 器 
的 指令 。 

e 两 者 都 具有 寄存 器 等 于 零 跳 转 和 寄存 器 不 等 于 零 跳 转 的 分 支 指令 。 

e 两 个 指令 系统 的 寻 址 模式 都 适用 于 所 有 字 长 。 






















































































寄存 器 - 寄存 器 
31 25 24 20 19 15 14 1211 大 0 
RISC-V funct7(7) | rs2(5) rs1(5) |funct3(3) | rd(5) opcode(7) 
31 26 25 21 20 16 15 11 10 6 5 0 
MIPS Op(6) Rs1(5) | Rs2(5) Rd(5) Const(5) Opx(6) 
加 载 
31 20 19 恒生 7 6 0 
RISC-V immediate(12) rs1(5) |funct3(3) | rd(5) | opcode(7) 
31 26 25 21 20 16 15 0 
MIPS Op(6) Rs1(5) | Rs2(5) Const(16) 
存储 
31 25 24 20 19 1514 1211 7 6 0 
RISC-V immediate(7) | rs2(5) | rs1(5) | funct3(3) | immediate(5) opcode(7) 
31 26 25 21 20 16 15 0 
MIPS Op(6) Rs1(5) | Rs2(5) | Const(16) 
分 支 
31 25 24 20 19 1514 1211 7 6 0 
RISC-V immediate(7) | rs2(5) | rs1(5) [funct3(3)| immediate(5) | opcode(7) 
31 26 25 21 20 16 15 0 
MIPS Op(6) | Rs1(5) | QOpx/Rs2(5) Const(16) 





图 2-29 RISC-V 和 MIPS 的 指令 格式 。 相 似 在 于 两 个 指令 集 都 有 32 个 寄存 器 


RISC-V 和 MIPS 的 主要 区 别 之 一 是 除 相 等 或 不 等 外 的 条 件 分 支 。RISC-V 仅 提 供 分 支 指 
令 来 比较 两 个 寄存 器 ， 而 MIPS 提供 比较 指令 ， 该 指令 根据 比较 是 否 为 真 将 寄存 器 设 为 0 或 
1。 接 着 ， 程 序 员 根据 预期 比较 结果 ， 在 该 比较 指令 后 跟 上 一 条 等 于 或 不 等 于 零 的 分 支 指令 。 
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遵循 极 简 主义 理念 ，MIPS 仪 执行 小 于 比较 ， 让 程序 员 改 变 操 作 数 的 顺序 或 改变 分 支 测 试 条 
件 以 获得 所 有 预期 结果 。MIPS 指令 系统 的 小 于 比较 指令 存在 有 符号 和 无 符号 版 本 ， 分 别 为 
slt 和 sltu。 

除 最 常用 的 核心 指令 外 ， 男 一 个 主要 区 别 是 完整 的 MIPS 指令 系统 要 比 RISC-V 大 得 多 ， 
将 在 2.18 节 中 看 到 。 


pa 


实例 : x86 指令 


指令 系统 的 设计 者 有 时 提供 比 RISC-V 和 MIPS 更 强大 的 操作 。 | 情人 眼 里 出 西施 
目标 通常 是 减少 程序 执行 的 指令 数 。 其 风险 在 于 : 这 种 减少 以 简单 “| wrgarer Woye pmgeyomd 
为 代价 ， 因 为 指令 执行 更 慢 ， 所 以 会 增加 程序 执行 所 需 时 间 。 这 种 【各 % 7 
缓慢 可 能 是 由 于 时 钟 周期 更 长 或 所 需 时 钟 周期 数 比 简单 序列 更 多 。 

因此 ， 通 向 复杂 操作 的 道路 困难 重重 。2.19 节 展 示 了 复杂 性 的 陷阱 。 


2 1 


Intel x86 的 演变 


RISC-V 和 MIPS 是 单个 团队 一 起 工作 推出 的 不 同 版 本 ， 这 些 体系 结构 的 各 个 部 分 很 好 
地 配合 在 一 起 。x86 的 情况 却 并 非 如 此 ; 它 是 几 个 独立 团体 开发 的 产品 ， 他 们 在 近 40 年 的 时 
间 里 不 断 改 进 该 体系 结构 ， 向 原始 指令 集 添加 新 的 功能 ， 正 如 有 人 向 打包 好 的 袋子 里 添加 衣 
服 。 以 下 是 x86 的 重要 里 程 碑 。 


1978 年 : Intel 8086 体系 结构 宣布 其 是 与 当时 已 经 成 功 的 8 | 通用 寄存 器 : 一 种 可 以 用 
位 微 处 理 器 Intel 8080 的 汇编 语言 兼容 的 扩展 。8086 是 16 | 于 任何 指令 的 地 址 或 数据 
位 体系 结构 ， 所 有 内 部 寄存 器 都 是 16 位 宽 。 与 RISC-V 不 | 的 告 存 器 。 

同 ， 它 的 寄存 器 都 是 专用 的 ， 因 此 不 认为 8086 是 通用 寄存 

器 (GPR ) 体系 结构 。 

1980 年 : Intel 8087 浮 点 协 处 理 器 发 布 。 该 体系 结构 在 8086 的 基础 上 扩展 了 大 约 60 
条 浮 点 指令 。 它 用 栈 来 奉 代 寄 存 器 ( 见 2.21 节 和 3.7 节 )。 

1982 年 : 80286 扩展 了 8086 体系 结构 ， 将 地 址 空间 增加 到 24 位 ， 创 建 了 详细 的 内 存 
映射 和 保护 模型 ( 见 第 5 章 )， 并 添加 了 一 些 指令 来 完善 指令 集 并 控制 保护 模型 。 

1985 年 : 80386 将 80286 体系 结构 扩展 到 32 位 。 除 了 具有 32 位 寄存 器 和 32 位 地 址 
空间 外 ，80386 还 增加 了 新 的 寻 址 模式 和 附加 操作 。 扩 展 的 指令 使 80386 几乎 成 为 一 
个 通用 寄存 器 处 理 器 。 除 分 段 寻 址 外 ，80386 还 增加 了 对 页 的 支持 ( 见 第 5 章 )。 与 
80286 一 样 ，80386 也 具有 无 须 修改 即 可 执行 8086 程序 的 模式 。 

1989 一 1995 年 : 之 后 1989 年 的 80486、1992 年 的 Pentium 和 1995 年 的 Pentium Pro 
旨 在 提高 性 能 ， 只 有 四 条 指令 添加 到 了 用 户 可 见 的 指令 集中 : 三 条 有 助 于 多 处 理 技术 
〈 见 第 6 章 )， 以 及 一 条 条 件 传送 指令 。 

1997 年 : 在 Pentium 和 Pentium Pro 发 布 后 ，Intel 宣布 将 用 MMX (多 媒体 扩展 ) 扩 
展 Pentium 和 Pentium Pro 体系 结构 。 这 个 57 条 指令 的 新 指令 集 使 用 浮 点 栈 来 加 
速 多 媒体 和 通信 应 用 程序 。MMX 指令 在 传统 的 单 指令 多 数据 (Single Instruction， 
Multiple Data，SIMD ) 体系 结构 上 一 次 处 理 多 个 短 数据 元 素 ( 见 第 6 章 )。Pentium [I 
没有 引入 任何 新 指令 。 

1999 年 : Intel 添加 了 另外 70 条 指令 ,标记 SSE (Streaming SIMD Extensions) 作为 





Pentium 亚 的 一 部 分 。 主 要 的 变化 是 添加 了 8 个 独立 的 寄存 器 ， 将 其 宽度 翻 倍 到 128 
位 ， 并 添加 一 个 单 精度 浮 点 数据 类 型 。 因 此 ， 可 以 并 行 执行 四 个 32 位 浮 点 操作 。 为 
了 提高 内 存 性 能 ，SSE 包括 cache 预 取 指 令 以 及 绕 过 cache 并 直接 写 和 内存 的 流 存储 
指令 。 

2001 年 : Intel 又 添加 了 另外 144 条 指令 ， 并 标记 为 SSE2。 新 数据 类 型 是 双 精 度 算 
术 ， 它 允许 并 行 执行 成 对 的 64 位 浮 点 操作 。 这 144 条 指令 几乎 都 是 已 存在 的 MMX 
和 SSE 指令 的 版 本 ， 它 们 并 行 运行 64 位 数据 。 这 种 变化 不 仅 可 以 实现 更 多 的 多 媒体 
操作 ， 而 且 相 对 于 唯一 的 栈 体 系 结构 ， 它 为 编译 器 提供 了 不 同 的 浮 点 操作 目标 。 编 译 
器 可 以 选择 将 8 个 SSE 寄存 器 用 作 浮 点 寄存 器 ， 如 同 其 他 计算 机 一 样 。 这 一 变化 大 
大 提升 了 Pentium 4 的 浮 点 性 能 ，Pentium 4 是 第 一 款 包 含 SSE2 指令 的 微 处 理 器 。 
2003 年 : 这 次 是 非 Intel 的 另 一 家 公司 改进 了 x86 体系 结构 。AMD 宣布 了 一 系列 体 
系 结构 的 扩展 ， 将 地 址 空间 从 32 位 增加 到 64 位 。 类 似 于 1985 年 在 80386 上 从 16 位 
到 32 位 地 址 空间 的 转换 ，AMD64 将 所 有 寄存 器 扩展 到 64 位 。 并 将 寄存 器 数 增加 到 
16, 将 128 位 SSE 寄存 器 的 数 增加 到 16。ISA 的 主要 变化 来 自 添 加 的 一 种 称 为 长 模 
式 (1long mode) 的 新 模式 ， 该 模式 用 64 位 地 址 和 数据 重新 定义 了 所 有 x86 指令 的 执 
行 。 为 了 寻 址 更 多 的 寄存 器 ， 它 为 指令 添加 了 新 的 前 级 。 根 据 计 算 方式 ， 长 模式 还 添 
加 了 4 到 10 条 新 指令 ， 并 去 掉 了 27 条 旧 指 令 。PC 相对 寻 址 是 另 一 个 扩展 。AMD64 
仍然 具有 与 x86 相同 的 模式 (遗产 模式 ) 以 及 将 用 户 程 序 限制 为 x86 但 允许 操作 系统 
使 用 AMD64 的 模式 (兼容 模式 )。 与 HP /Intel IA-64 体系 结构 相 比 ， 这 些 模式 能 更 
好 地 过 渡 到 64 位 寻 址 。 

2004 年 : Intel 认输 并 接受 AMD64， 重 新 标记 为 64 位 扩展 内 存 技术 (Extended Memory 
64 Technology，EM64T)。 主 要 区 别 在 于 Intel 添加 了 128 位 原子 比较 和 交换 指令 ， 这 
个 可 能 本 应 包含 在 AMD64 中 的 指令 。 与 此 同时 ，Intel 宣布 了 另 一 代 媒 体 扩展 。SSE3 
添加 了 13 条 指令 ， 以 支持 复杂 运算 、 结 构 数 组 上 的 图 形 操 作 、 视 频 编码 、 浮 点 转换 以 
及 线程 同步 ( 见 2.11 节 )。AMD 在 后 续 芯 片 中 添加 了 SSE3， 并 向 AMD64 添加 了 缺少 
的 原子 交换 指令 ， 以 维持 与 Intel 的 二 进 制 兼容 性 。 

2006 年 : Intel 发 布 了 54 条 新 指令 ， 作 为 SSE4 指令 集 扩展 的 一 部 分 。 这 些 扩展 执行 
的 调整 针对 绝对 差 求 和 、 数 组 结构 的 点 积 计算 、 罕 数据 到 更 宽 数 据 的 符号 或 零 扩 展 、 
数目 统计 等 。 还 增加 了 对 虚拟 机 的 支持 ( 见 第 5 章 )。 

2007 年 : AMD 发 布 了 170 条 指令 ,作为 SSE5 的 一 部 分 ， 包括 46 条 基本 指令 集 的 指 
令 增 加 了 像 RISC-V 的 3 操作 数 指令 。 

2011 年 : Intel 推出 高 级 向 量 扩展 ， 将 SSE 寄存 器 宽度 从 128 位 扩展 到 256 位 ， 从 而 
重新 定义 了 约 250 条 指令 并 添加 了 128 条 新 指令 。 


这 段 历 史 说 明了 兼容 性 这 个 “人 金 手 错 ” 对 x86 的 影响 ， 因 为 每 一 阶段 存在 的 软件 基础 都 
至 关 重 要 ， 不 会 因 重 大 体系 结构 变化 而 使 其 受到 危害 。 

无 论 x86 有 多 失败 ， 该 指令 集 在 很 大 程度 上 驱动 了 计算 机 的 PC 时 代 ， 并 且 仍 然 支 配 着 
后 PC 时 代 的 绝 大 部 分 。 与 140 亿 ARM 芯片 相 比 ， 每 年 制造 350M x86 芯片 看 似 很 少 ， 但 许 
多 公司 都 想 控制 这 个 市 场 。 无 论 如 何 ， 这 个 多 变 的 家 族 带 来 了 一 种 难以 解释 上 且 无 法 喜爱 的 体 
系 结构 。 

打 起 精神 面 对 即 将 看 到 的 内 容 ! 不 必 带 着 需要 编写 x86 程序 的 担忧 来 阅读 本 节 ; 相反 ， 














本 节 的 目的 是 让 你 熟悉 世界 上 最 流行 的 桌面 体系 结构 的 优 缺 点 。 
本 节 关 心 的 是 80386 的 32 位 子 集 ， 而 不 是 整个 16 位 、32 位 和 64 位 指令 集 。 我 们 将 从 
寄存 器 和 寻 址 模式 开始 说 明 ， 然 后 到 整数 操作 ， 最 后 考虑 指令 编码 。 


2.17.2 x86 寄存 器 和 寻 址 模式 


80386 的 寄存 器 展示 了 指令 系统 的 进化 (图 2-30 )。80386 将 所 有 16 位 寄存 顺 ( 段 寄 
存 器 除外 ) 扩展 为 32 位 ， 给 名 称 加 上 前 级 EE 来 表示 32 位 版 本 。 通 常 被 称 为 GPR ( General- 
Purpose Register， 通 用 寄存 器 )。80386 只 包含 8 个 GPR。 这 意味 着 RISC-V 和 MIPS 程序 可 
以 使 用 四 倍数 量 的 寄存 器 。 


名 称 用 途 
2 
， -IGPRO 
GPR 1 
IGPR2 
|cpRas 
GPR4 
|epRs 
GPR6 
|GPR7 
“| 代码 段 指针 
| 栈 段 指针 ( 栈 顶 ) 
数据 段 指 针 0 





| 指令 指针 ( PC ) 
条 件 码 
前 8 个 寄存 器 被 扩展 到 32 位 ， 且 可 用 作 通 用 寄 






EFLAGS[ 


图 2-30 80386 寄存 器 组 。 从 80386 开始 ， 
存 器 


图 2-31 展示 了 2 操作 数 的 算术 、 逻 辑 和 数据 传输 指令 。 这 里 存在 两 个 重要 的 区 别 。x86 
算术 和 逻辑 指令 中 必须 有 一 个 操作 数 既 作为 源 操作 数 ， 又 作为 目的 操作 数 ; RISC-V 和 MIPS 
允许 源 和 目的 操作 数 的 寄存 器 分 开 。x86 的 这 种 限制 对 有 限 寄 存 器 带 来 了 更 大 的 压力 ， 因 为 
必须 修改 一 个 源 寄存 器 。 第 二 个 重要 的 区 别 在 于 其 中 一 个 操作 数 可 以 在 存储 嚣 中。 因此, 与 
RISC-V 和 MIPS 不 同 ， 实 际 上 任何 指令 都 可 能 有 一 个 操作 数 在 存储 需 中 。 

下 面 详细 描述 的 数据 存储 器 寻 址 模式 在 指令 中 提供 两 种 位 宽 的 地 址 。 这 些 所 谓 的 偏 移 
(displacement) 可 以 是 8 位 或 32 位 。 

尽管 存储 器 操作 数 可 以 使 用 任何 寻 址 模式 ， 但 每 种 模式 可 以 使 用 哪些 寄存 器 存在 限制 。 
图 2-32 展示 了 x86 寻 址 模式 和 各 模式 下 哪些 GPR 不 能 使 用 ， 以 及 如 何 使 用 RISC-V 指令 得 























到 相同 的 效果 。 
源 / 目 的 操作 数 类 型 | 第 二 个 源 操作 数 类 型 
寄存 器 寄存 器 
寄存 器 立即 数 
寄存 器 存储 器 
存储 器 寄存 器 
存储 器 立即 数 














图 2-31 x86 算术 、 逻 辑 和 数据 传输 指令 允许 的 操作 数组 合 情 况 。 唯 一 的 限制 是 缺少 存储 
器 -存储 器 模式 。 立 即 数 可 以 是 8 位 、16 位 或 32 位 ; 寄存 器 可 以 是 图 2-30 中 14 
个 主要 寄存 器 ( 除 EIP 和 EFLAGS) 中 的 任意 一 个 

















寄存 器 间接 寻 址 地 址 在 寄存 器 中 不 能 是 ESP 或 EBP ld X10 AT 功 
8 位 或 32 位 偏 移 量 的 基 址 | 地 址 是 : Eee , 
寻 址 模式 基 址 寄存 器 加 上 偏 移 量 WD, 
地 址 是 : S11T x12, x12, 3 
基 址 加 比例 下 标 寻 址 基 址 + ( 2kgx 下 标 ) ， 基 址 ; 任意 GPR add x11, x11, x12 
其 中 比例 为 0、1、2 或 3 下 标 : 不 能 是 ESP| 1d x10, 0(x11) | 
ee 地 址 是 : s11i x12, x12, 3 
i Es ee A 人 全 全 R | 。 汉 寺 城 1， 吉 1a 
人 其 中 比例 为 0、1、2 或 3 人 1d x10, 40(x11) 
| 




















图 2-32 ” 受 寄存 器 限制 的 x86 32 位 寻 址 模式 及 其 等 价 的 RISC-V 代码 。 其 中 包含 了 在 RISC-V 
或 MIPS 中 所 没有 的 基 址 加 比例 下 标 寻 址 模式 ， 以 避免 乘 以 8 (比例 因子 3 ) 来 将 寄 
存 器 中 的 下 标 转换 为 字 节 地 址 ( 见 图 2-26 和 图 2-28 )。 比 例 因子 1 用 于 16 位 数据 ， 
比例 因子 2 用 于 32 位 数据 。 比 例 因 子 0 表示 地 址 不 缩放 。 如 果 在 第 二 或 第 四 种 模式 
中 偏 移 量 长 于 12 位 ， 那 么 RISC-V 等 效 模式 将 需要 更 多 指令 ， 通 常用 1ui 来 载 入 偏 
移 量 的 第 12 到 31 位 ， 然 后 用 add 将 其 加 到 基 址 寄存 器 ( Intel 为 称 为 基 址 寻 址 的 模 
式 提 供 了 两 个 不 同 的 名 称 : 基 址 和 下 标 。 但 其 本 质 相 同 ， 且 在 这 里 将 其 合并 。) 


2.17.3 x86 整数 操作 


8086 对 8 位 ( 字 节 ) 和 16 位 ( 字 ) 数据 类 型 提供 支持 。80386 在 x86 中 增加 了 32 位 地 
址 和 数据 ( 双 字 )。( AMD64 增加 了 64 位 地 址 和 数据 ， 称 作 四 字 ; 本 节 将 关注 80386。) 数据 
类 型 的 区 别 也 适用 于 寄存 器 操作 以 及 存储 器 访问 。 

几乎 所 有 操作 都 适用 于 8 位 数据 和 一 个 较 长 的 数据 大 小 。 该 大 小 由 模式 决定 ， 为 16 位 
或 32 位 。 

显然 ， 有 些 程序 希望 对 所 有 三 种 大 小 的 数据 进行 操作 ， 因 此 80386 体系 结构 提供 了 一 种 
方便 途径 来 指定 每 一 种 形式 而 不 会 显著 扩展 代码 大 小 。 它 们 认为 16 位 或 32 位 数据 在 大 多 数 
程序 中 占 主导 地 位 ， 因 此 设置 一 个 默认 的 大 尺寸 是 有 意义 的 。 这 个 默认 数据 大 小 由 代码 段 寄 
存 器 中 的 一 位 设置 。 要 重 载 默认 数据 大 小 ， 需 在 指令 前 附加 一 个 8 位 前 缓 ， 以 告诉 机 器 该 指 
令 使 用 另 一 数据 长 度 。 

前 绥 解 决 方案 是 从 8086 借 来 的 ，8086 允许 使 用 多 个 前 缀 来 改变 指令 行为 。 最 初 的 三 
个 前 缀 忽略 默认 段 寄 存 器 ， 锁 定 总 线 以 支持 同步 ( 见 2.11 节 ), 或 重复 后 续 指 令 直 到 寄存 器 





ECX 减少 到 0。 最 后 一 个 前 缀 要 配合 一 个 字 节 传送 指令 以 传送 可 变数 目的 字 节 。80386 还 增 
加 了 一 个 前 级 来 改变 默认 地 址 长 度 。 

x86 整数 运算 可 分 为 四 大 类 : 

1. 数据 传送 指令 ,包括 move、push 和 pop。 

2. 算术 和 逻辑 指令 ， 包括 测试 、 整 数 和 小 数 算术 运算 。 

3. 控制 流 ， ae 无 条 件 分 支 、 调 用 和 返回 。 

4. 字符 串 指 令 ， 包 括 字符 串 传 送 和 字符 串 比 较 。 

除了 算术 和 迎 辑 指令 操作 允许 目的 是 寄存 器 或 存储 器 位 置 外 ， 前 两 个 类 别 没有 什么 特别 
之 处 。 图 2-33 展示 了 一 些 典型 的 x86 指令 及 其 功能 。 
































指令 | 功能 
i 
jename if equal(condition code) {EIP=name}; 
| EIP-128 <=name < EIP+128 
jmp name EIP=name 
callname SP=SP-4; MLSP]=EIP+5; EIP=name; 
movw EBX, [EDI+45] EBX=M[L EDI+45] 
push ESI SP=SPp=4; MLSP]=EST 
pop EDI EDI=MDSP J] SP=SPA+4 
add EAX ,#6765 EAX= EAX+6765 
test EDX ,#42 Set condition code (flags) with EDX and 42 
movs1 ML[EDI]=M[ESI]; 
EDI=EDI+4: ESI=ESI+4 











图 2-33 一 些 典 型 的 x86 指令 及 其 功能 。 常 用 操作 列表 如 图 2-34 所 示 。CALL 将 下 一 条 指 
令 的 EIP 保存 在 栈 中 (EIP 是 Intel 的 PC ) 


x86 上 的 条 件 分 支 基于 条 件 代码 或 标志 。 条 件 代码 被 设置 为 操作 的 副作用 ， 大 多 数 用 于 将 
结果 的 值 与 0 进行 比较 。 然 后 ， 分 支 测试 条 件 代 码 。PC 相对 分 支 地 址 必须 以 字 节 数 指定 ， 因 
为 与 RISC-V 和 MIPS 不 同 ，80386 指令 没有 对 齐 限制 。 字 符 串 指令 是 x86 的 8080 系列 的 一 部 
分 ,并且 在 大 多 数 程序 中 通常 不 执行 。 它 们 通常 比 等 效 的 软件 程序 慢 (参见 2.19 节 的 廖 误 )。 

图 2-34 列 出 了 一 些 x86 整数 指令 。 大 部 分 指令 都 同时 具有 字 节 和 字 格 式 。 









































指令 含义 
控制 条 件 和 无 条 件 分 支 | 
ne:iz 如 果 条 件 成 立 则 跳 转 到 EIP+8 位 偏 移 量 ; JNE ( 代替 JNZ ) 和 JE ( 代替 JZ ) 两 者 之 一 
jmp 无 条 件 跳 转 一 一 8 位 或 16 位 偏 移 量 
call | 子 程 序 调用 一 一 16 位 偏 移 量 ; 返回 地 址 压 栈 
[met 从 栈 中 弹出 返回 地 址 并 跳 转 到 该 地 址 
loop | 循环 分 支 一 一 自 减 ECX; 如 果 ECXx0， 则 跳 转 到 EIP+8 位 偏 移 量 处 
数据 传输 在 寄存 器 之 间或 寄存 器 与 存储 器 之 间 移动 数据 
move 在 两 个 寄存 器 之 间或 寄存 器 与 存储 器 之 间 移 动 数据 
push,pop 源 操作 数 压 栈 ; 从 栈 顶 弹出 操作 数 到 寄存 器 
les 从 存储 器 中 载 入 ES 和 GPR 中 的 一 个 





图 2-34 x86 中 的 典型 操作 。 很 多 操作 使 用 寄存 器 - 存储 器 格式 ， 其 中 一 个 源 操作 数 或 目的 
操作 数 可 以 是 存储 器 ， 另 一 个 可 以 是 寄存 器 或 立即 数 


指 会 : 计 龙 机 的 语言 
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一 





算术 ， 逻 辑 | 使 用 数据 寄存 器 和 存储 器 的 算术 与 逻辑 操作 
add, sub 将 源 操作 数 加 到 目的 操作 数 ; 从 目的 操作 数 减 去 源 操作 数 ; 寄存 器 -存储 器 格式 
cmp 比较 源 操作 数 与 目的 操作 数 ; 寄存 器 -存储 器 格式 





onl , she Fer 


左 移 ; 逻辑 右 移 ; 带 条 件 码 填充 的 循环 右 移 









































cbw 将 EAX 最 右 8 位 字 节 转换 成 EAX 最 右 16 位 字 

test | 源 操 作 数 和 目的 操作 数 逻 辑 与 ， 并 设置 标志 位 

inc, dec 目的 操作 数 自 增 ， 目 的 操作 数 自 减 

or ,xor 逻辑 或 ， 异 或 ; 寄存 器 -存储 器 格式 

字符 串 “| 字符 串 操作 数 间 的 移动 ， 由 重复 前 缀 给 定 长 度 

movs 通过 递增 ESI 和 EDI 从 源 字符 串 复制 到 目的 字符 串 ; 可 以 重复 
lods 从 字符 串 中 取 字 节 、 字 或 双 字 到 寄存 器 EAX 








图 2-34 ( 续 ) 


2.17.4 x86 指令 编码 


把 最 糟 的 放 在 最 后 ，80386 中 的 指令 编码 很 复杂 ， 有 很 多 不 同 的 指令 格式 。 当 只 有 一 个 
操作 数 时 ，80386 的 指令 可 能 从 1 个 字 节 到 15 个 字 节 。 
图 2-35 展示 了 图 2-33 中 几 个 示例 指令 的 指令 格式 。 操 作 码 字 节 通常 含有 一 位 以 表明 操 
作 数 是 8 位 还 是 32 位 。 对 于 某 些 指令 ， 操 作 码 可 能 还 包括 寻 址 模式 和 寄存 器 ; 在 许多 具有 
“register = register op immediate ”形式 的 指令 中 都 是 如 此 。 其 他 指令 使 用 “后 置 字 节 ”或 额 


外 的 操作 码 字 节 ， 


标记 为 “mod，reg，rm”( 模 式 ， 寄 存 器 ， 寄 存 器 /存储 器 )， 其 中 包含 寻 


址 模式 信息 。 后 置 字 节 用 于 很 多 寻 址 存储 器 的 指令 。 基 址 加 比例 下 标 寻 址 模式 使 用 第 二 个 后 
置 字 节 ， 标 记 为 “sc，index，base”( 比 例 ， 下 标 ， 基 址 )。 


a. JE EIP + displacement 


4 


4 


8 


Condh Displacement 
tion 
b. CALL 


c.MOV EBX, [EDI+ 45] 


6 


小 了 


8 8 


rm 


图 2-35 典型 的 x86 指令 格式 。 图 2-36 给 出 后 置 字 节 (postbyte) 编码 。 很 多 指令 包含 1 位 
的 w 字段 ， 表明 操作 是 字 节 还 是 双 字 。MOV 中 的 d 字段 可 用 于 从 存储 器 传 出 或 传 
和 到 存储 器 ， 并 表明 传输 方向 。ADD 指令 需要 32 位 的 立即 数字 段 ， 因 为 在 32 位 模 
式 下 ,立即 数 为 8 位 或 32 位 。TEST 中 的 立即 数字 段 长 度 为 32 位 ， 因 为 在 32 位 
模式 下 没有 8 位 的 立即 数 检 测 。 总 的 来 说 ， 指 令 长 度 可 以 从 1 到 15 个 字 节 。 较 长 
的 长 度 来 自 额 外 的 1 字 节 前 级 ， 具 有 4 字 节 立即 数 和 4 字 节 偏 移 地 址 ， 使 用 2 字 节 
的 操作 码 ， 并 使 用 比例 下 标 寻 址 模式 说 明 符 ， 还 需 增 加 另 一 额外 字 节 


110 锣 2 登 





d. PUSH ESI 


5 
ros [eed 


e. ADD EAX, #6765 
32 


4 -| 
EE 


f.TEST EDX, #42 











4 | 8 32 
TEST 四 Postbyte Immediate 
图 2-35 ( 续 ) 


图 2-36 展示 了 16 位 和 32 位 模式 的 两 个 后 置 字 节 地 址 说 明 符 的 编码 。 不 幸 的 是 ， 要 完 
全 理解 哪些 寄存 器 和 哪些 寻 址 模式 可 用 ， 需 要 查看 所 有 寻 址 模式 的 编码 ， 有 时 甚至 要 看 指令 
编码 。 


16b 16b 32b 16b 32b 16b 32b 





一 一 一 一 一 一 一 一 一 一 一 













































































32b 

0 AL AX EAX 0 addr=BX+SI | =EAX same same same same same 

于 CL CX ECX 1 addr=BX+DI | =ECX addr as addras addr as addr as as 

2 DL DX EDX 2 addr=BP+S| | =EDX mod=0 mod=0 mod=0 mod=0 reg 

3 BL BX | EBX 3 addr=BP+SI | =EBX + disp8 + disp8 +disp1 6 + disp32 field 

4 AH | SP ER 4 addr=Sl =(sib) Sl+disp8 (sib)+disp8 |Sl+disp8 (sib)+disp32 加 

5 CH BP EBP addr=DI =disp32 | DI+disp8 EBP+disp8 | DI+disp16 | EBP+disp32 | 
6 DH SI ESI 6 addr=disp16 | =ES 1 BP+disp8 | ESI+disp 8 | BP+disp16 | ESI+disp32 | | 
了 BH DI EDI 二 | addr=BX =ED1 BX+disp8 | EDI+disp8 BX+disp16 | EDI+disp32 | 





图 2-36 x86 的 第 一 个 地 址 说 明 符 编码 : mod,，reg, r/m。 前 4 列表 示 3 位 reg 字段 的 编 
码 ， 该 字段 取决 于 操作 码 的 w 位 以 及 机 器 处 于 16 位 模式 (8086 ) 还 是 32 位 模式 
( 80386 ) 。 其 余 列 解释 了 mod 和 rm 字段 。3 位 的 wm 字段 取决 于 2 位 mod 字 段 
的 值 和 地 址 的 大 小 。 用 于 地 址 计算 的 寄存 器 列 在 第 六 和 第 七 列 中 ,在 mod = 0 时 
(mod = 1 时 加 上 一 个 8 位 的 偏 移 量 ,mod = 2 时 加 上 一 个 16 位 或 32 位 的 偏 移 量 ) 取 
决 于 寻 址 模式 。 例 外 情况 有 : GD 在 16 位 模式 下 ,， 当 mod = 1 或 mod =2 时 ，rm = 
6 选择 BP 加 上 偏 移 量 ; @) 在 32 位 模式 下 ,， 当 mod= 1 或 mod=2 时 ，rm=5 选 择 
EBP 加 上 偏 移 量 ; @ 在 32 位 模式 下 ， 当 mod 不 等 于 3 时, r/m =4， 其 中 ( sib) 表 
示 使 用 图 2-35 所 示 的 比例 下 标 寻 址 模式 。 当 mod = 3 时 , rm 字段 指示 一 个 寄存 器 ， 
与 w 字 段 组 合 ， 使 用 与 reg 字段 相同 的 编码 


2.17.5 x86 总 结 


Intel 的 16 位 微 处 理 器 先 于 其 竞争 对 手 的 下 一 代 体 系 结 构 两 年 (例如 Motorola 68000 )， 
这 一 先 机 致使 8086 被 选 作 IBM PC 的 CPU。Intel 工程 师 普 遍 承 认 x86 比 RISC-V 和 MIPS 等 
计算 机 更 难 构 建 ， 但 在 PC 时 代 ， 大 型 市 场 意味 着 AMD 和 Intel 可 以 提供 更 多 资源 来 帮助 克 
服 额外 的 复杂 性 。 市 场 规模 弥补 了 x86 风格 上 的 欠缺 ， 从 乐观 的 角度 来 看 ， 这 使 其 前 景 更 好 。 
最 常用 的 x86 体系 结构 并 不 太 难 实现 ， 自 1978 年 以 来 ， AMD 和 Intel 通过 快速 提高 整 
点 程序 的 性 能 证 明了 这 一 点 。 为 了 获得 这 样 的 性 能 ， 编 译 器 必须 避免 使 用 高 速 结 构 ， 它 们 一 
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般 难以 实现 。 
然而 在 后 PC 时 代 ， 尽 管 已 经 具有 相当 多 的 体系 结构 和 制造 专业 知识 ，x86 在 个 人 移动 
设备 中 并 不 具备 苑 争 力 。 


2.18 实例 : RISC-V 指令 系统 的 剩余 部 分 


为 了 使 指令 系统 体系 结构 广泛 适用 于 各 种 计算 机 ，RISC-V 架构 师 将 指令 系统 划分 为 一 
个 基本 体系 结构 (base architecture) 和 几 个 扩展 (extension) 体系 结构 。 每 个 都 用 字母 表 中 的 
字母 命名 ， 基 本 体系 结构 命名 为 IT， 表示 整数 。 相 对 于 当今 其 他 流行 指令 系统 ， 该 基本 体系 
结构 仅 有 极 少 数 指令 ， 本 章 已 经 涵盖 了 这 些 相 关 指 令 。 本 节 简 要 介绍 基本 体系 结构 以 及 五 个 
标准 扩展 。 

图 2-37 列 出 了 RISC-V 基本 体系 结构 中 的 剩余 指令 。 第 一 条 指令 为 auipc， 用 于 PC 相 
对 存储 器 寻 址 。 与 1ui 指令 一 样 ， 它 保存 一 个 20 位 的 常数 ， 对 应 于 整数 的 第 12 位 到 第 31 
位 。auipc 用 于 将 该 数 与 PC 相 加 并 将 结果 写 和 人 寄存器。 结合 addi 这 样 的 指令 ， 可 以 寻 址 
4 GiB 内 的 存储 器 的 任意 字 节 。 这 个 特征 对 于 位 置 无 关 代 码 (position-independent code) 非常 
有 有 用， 无论 从 存储 器 的 何 处 加 载 都 可 以 正确 执行 。 最 常用 于 动态 链接 库 。 


















































RISC-V 基 本 体系 结构 的 特有 指令 
指令 格式 描述 
Add upper immediate to PC auipc U 立即 数 高 20 位 与 PC 相 加 ; 将 结果 写 到 寄存 器 
Set if less than slt R 比较 寄存 器 ; 将 布尔 结果 写 到 寄存 器 
Set if less than, unsigned a1bu R 比较 寄存 器 ; 将 布尔 结果 写 到 寄存 器 
Set if less than, immediate slti 1 比较 寄存 器 ; 将 布尔 结果 写 到 寄存 器 
Set if less than immediate, unsigned | sltiu | 比较 寄存 器 ; 将 布尔 结果 写 到 寄存 器 
Add word addw R 32 位 数字 相 加 
Subtract word subw R 32 位 数字 相 减 
Add word immediate | addiw | 常数 与 32 位 数字 相 加 Bal 
Shift left logical word sllw R 根据 寄存 器 左 移 32 位 数字 | 
Shift right logical word srlw R 根据 寄存 器 右 移 32 位 数字 
Shift right arithmetic word sraw R 根据 寄存 器 算术 右 移 32 位 数字 
| Shift left logical word immedate slliw | | 根据 立即 数 左 移 32 位 数字 
| Shift right logical word immediate srliw 1 根据 立即 数 右 移 32 位 数字 
| Shift right arithmetic word immediate | sraiw I 根据 立即 数 算术 右 移 32 位 数字 

















图 2-37 在 RISC-V 指令 系统 中 剩余 的 14 条 指令 


接 下 来 的 四 条 指令 比较 两 个 整数 ， 然 后 将 比较 后 的 布尔 结果 写 人 寄存 器 。s1t 和 s1tu 
分 别 将 两 个 寄存 器 作为 有 符号 和 无 符号 数 进行 比较 ， 如 果 第 一 个 值 小 于 第 二 个 值 ， 则 将 1 写 
到 寄存 器 ， 否 则 写 0。s1ti 和 s1tiu 执行 相同 的 比较 ， 但 它们 的 第 二 个 操作 数 为 立即 数 。 

剩余 的 指令 应 该 看 起 来 都 很 熟悉 ， 因 为 它们 的 名 称 与 本 章 讨论 过 的 其 他 指令 相同 ， 但 附 
加 了 字母 w， 简 称 字 ( word)。 这 些 指 令 与 讨论 过 的 相似 命名 指令 执行 相同 的 操作 ， 只 是 这 
些 指 令 仅 使 用 其 操作 数 的 低 32 位 ， 忽 略 第 32 到 63 位 。 另 外 ， 会 产生 符号 扩展 后 的 32 位 结 
果 : 即 第 32 位 到 63 位 与 第 31 位 完全 相同 。RISC-V 架构 师 引 入 这 些 w 指令 是 因为 32 位 数 
的 操作 在 64 位 地 址 的 计算 机 上 仍然 很 普遍 。 其 主要 原因 是 常用 数据 类 型 int 在 Java 和 大 多 
数 C 语言 的 实现 中 仍 是 32 位 。 
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这 就 是 基本 体系 结构 ! 图 2-38 列 出 了 五 个 标准 扩展 。 第 一 个 命名 为 M， 添 加 整数 乘法 和 
除法 指令 。 第 3 章 将 介绍 M 扩展 中 的 几 条 指令 。 
第 二 个 扩展 为 A， 支持 多 处 理 器 同步 的 原子 


RISC-V 基 本 体系 结构 与 扩展 
存储 器 操作 。2.11 节 中 介绍 的 保留 加 载 (1r.d) 






































助 记 符 描述 

和 条 件 存储 (sc.d) 指令 都 属于 A 扩展 。 还 包 人 
括 32 位 字 (1r.w 和 sc.w) 版 本 。 剩 余 18 条 指 | M | ”整数 乘法 /除法 13 
令 是 常见 同步 模式 的 优化 ， 如 原子 交换 和 原子 添 A 原子 操作 22 
加 ， 但 没有 在 保留 加 载 和 条 件 存储 上 添加 任何 其 单 精度 浮 点 | 30 
他 功能 。 : 双 精 度 浮 点 有 

C 压缩 指令 36 

第 三 和 第 四 个 扩展 F 和 DD 提供 浮 点 数 操作 ， 

将 在 第 3 章 中 讲述 。 图 2-38 RISC-V 指令 系统 体系 结构 分 为 


基本 ISA ( 称 作 1) 以 及 五 个 标准 


ee 不 担 仁 日 
最 后 一 个 扩展 C 不 提供 任何 新 功能 。 相 反 ， 扩展 : M、A、F、D 和 C 


它 采用 最 常见 的 RISC-V 指令 ， 如 addi， 并 提 
供 长 度 仅 为 16 位 而 非 32 位 的 等 效 指令 。 从 而 允 
许 程 序 用 更 少 的 字 节 表示 ， 这 可 以 降低 成 本 (将 在 第 5 章 中 看 到 )， 还 能 提升 性 能 。 为 了 适应 
16 位 ， 新 指令 对 其 操作 数 有 限制 : 例如 ， 某 些 指令 只 能 访问 32 个 寄存 器 中 的 一 部 分 ， 且 立 
即 数字 段 更 罕 。 

总 而 言 之 ，RISC-V 的 基本 体系 结构 及 其 扩展 共有 184 条 指令 以 及 13 条 系统 指令 (将 在 
第 5 章 末 尾 介 绍 )。 


2.19 ” 雇 误 与 陷阱 

谬误 : 更 强大 的 指令 意味 着 更 高 的 性 能 。 

Intel x86 的 一 个 强大 之 处 在 于 前 级 ， 它 可 以 改变 后 续 指令 的 执行 。 前 级 可 以 重复 后 续 指 
令 ， 直 到 计数 器 递减 至 0。 因 此 ， 在 存储 器 中 移动 数据 ， 似 乎 自然 的 指令 序列 就 是 使 用 带 有 
重复 前 缀 的 move 来 执行 32 位 存储 器 到 存储 器 的 传送 。 

另 一 种 方法 是 使 用 所 有 计算 机 中 都 有 的 标准 指令 ， 将 数据 加 载 到 寄存 器 中 ， 然 后 将 寄存 
器 存 回 存储 器 。 这 种 方法 的 第 二 版 是 复制 代码 以 减少 循环 开销 ， 复 制约 快 1.5 倍 。 第 三 版 使 
用 更 大 的 浮 点 寄存 器 而 不 是 x86 的 整数 寄存 器 ， 复 制 要 比 复杂 的 传送 指令 快 2.0 倍 。 

廖 误 : 用 汇编 语言 编程 以 获得 最 高 性 能 。 

曾经 有 一 段 时 间 ， 编 程 语言 的 编译 器 常常 产生 低级 的 指令 序列 ; 编译 器 日 渐 复杂 意味 着 纺 
译 产 生 的 代码 和 手工 生成 的 代码 之 间 的 差距 正在 快速 缩小 。 事 实 上 ， 为 了 与 当今 的 编译 器 竞争 ， 
汇编 语言 程序 员 需 要 彻底 理解 第 4 章 和 第 5 章 中 的 概念 (处理 器 流水 线 和 存储 器 层次 结构 )。 

编译 器 和 汇编 程序 员 之 间 的 斗争 正在 逐渐 消失 。 例 如 ，C 为 程序 员 提供 了 一 个 机 会 来 提 
示 编 译 器 哪些 变量 要 保留 在 寄存 器 中 ， 哪 些 变量 要 换 出 到 存储 器 中 。 当 编译 器 不 能 很 好 地 分 
配 寄 存 器 时 ， 这 些 提示 对 性 能 来 说 至 关 重 要 。 实 际 上 ， 一 些 旧 的 C 课本 花费 大 量 的 时 间 给 出 
了 有 效 使 用 寄存 器 提示 的 例子 。 今 天 的 C 编译 器 通常 忽略 这 些 提 示 ， 因 为 编译 器 在 分 配方 面 
比 程序 员 做 得 更 好 。 

即使 手工 编写 能 产生 更 快 的 代码 ， 使 用 汇编 语言 编写 的 危险 在 于 编码 和 调试 所 花费 的 时 
间 、 可 移植 性 差 以 及 难以 维护 。 软 件 工程 中 少数 几 个 被 广泛 接受 的 公理 之 一 是 编写 的 程序 越 
长 ， 编 码 需要 的 时 间 就 越 长 ， 显 然 使 用 汇编 语言 编写 程序 比 使 用 C 或 Java 编写 的 程序 要 长 
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得 多 。 而 且 , 一 旦 编码 ， 接 下 来 的 危险 就 是 它 将 变 为 一 个 流行 程序 。 这 种 程序 的 寿命 总 是 比 
预期 的 长 ， 意 味 着 程序 员 不 得 不 几 年 就 更 新 一 次 代码 以 使 其 适用 于 新 版 本 的 操作 系统 和 最 新 
的 计算 机 。 使 用 更 高 级 语言 而 不 是 汇编 语言 编写 不 仅 允 许 未 来 的 编译 器 为 将 来 的 机 器 定制 代 
码 ， 还 使 软件 更 易于 维护 ， 并 人 允许 程序 在 更 多 品牌 的 计算 机 上 运行 。 

廖 误 : 商用 计算 机 二 进 制 兼容 的 重要 性 意味 着 成 功 的 指令 系统 无 须 改变 。 

虽然 向 后 的 二 进 制 兼容 性 是 神圣 不 可 侵犯 的 ,但 图 2-39 显示 了 x86 指令 系统 的 快速 发 
展 。 在 其 35 年 的 生命 周期 中 ,平均 每 月 至 少 新 增 一 条 指令 ! 
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图 2-39 ”x86 指令 系统 随时 间 推 移 的 增长 。 虽 然 其 中 一 些 扩展 具有 明显 的 技术 价值 ， 但 这 种 
快速 变化 也 增加 了 其 他 公司 试图 构建 兼容 处 理 器 的 难度 


陷阱 : 忘记 在 字 节 寻 址 的 机 器 中 ， 连 续 的 字 或 双 字 地 址 相差 不 为 1。 

许多 汇编 语言 程序 员 假设 将 寄存 器 中 的 地 址 递增 1 而 不 是 字 或 双 字 大 小 (以 字 节 为 单位 ) 
来 找到 下 一 个 字 或 双 字 的 地 址 ， 他 们 因此 而 烦恼 。 提 前 预备 以 避 后 患 ! 

陷阱 : 在 变量 的 定义 过 程 外 ， 使 用 一 个 指针 指向 该 变量 。 

处 理 指针 的 一 个 常见 错误 是 从 一 个 过 程 传递 结果 ， 而 这 个 过 程 包含 指向 其 局 部 数组 的 指 
针 。 遵 循 图 2-12 中 的 栈 规则 ， 一 旦 过 程 返回 ， 包 含 局 部 数组 的 存储 器 将 被 重用 。 指 向 变量 
的 指针 可 能 导致 混乱 。 


2.20 本章 小 结 


存储 程序 (stored-program) 计算 机 的 两 个 原理 是 ， 对 于 程序 来 ”| 少 即 多 。 
说 ， 指 令 的 使 用 与 数据 没有 区 别 ， 以 及 都 使 用 可 变 的 存储 器 。 这 些 原 patie nk, 
则 允许 单个 机 器 在 不 同 的 专业 领域 辅助 癌症 研究 人 员 、 经 济 顾问 和 小 : 
说 家 。 选 择机 器 能 够 理解 的 指令 系统 时 ， 需 要 全 面 平衡 执行 程序 所 需 的 指令 数目 、 指 令 所 需 
的 时 钟 周期 数 以 及 时 钟 速度 。 正 如 本 章 所 述 ， 三 条 设计 原则 指导 指令 系统 设计 者 如 何 权 衡 : 

1. 简单 源 于 规整 。 规 整 性 使 RISC-V 指令 系统 具有 很 多 特点 : 所 有 指令 都 保持 单一 长 度 、 
算术 指令 中 总 是 使 用 寄存 器 作为 操作 数 、 所 有 指令 格式 中 寄存 器 字段 都 保持 在 相同 位 置 。 

2. 更 少 则 更 快 。 对 速度 的 要 求 导致 RISC-V 有 32 个 寄存 器 而 不 是 更 多 。 

3. 优秀 的 设计 需要 适当 的 折 中 。 一 个 RISC-V 的 例子 是 ， 在 指令 中 提供 更 大 的 地 址 和 常 
数 ， 与 保持 所 有 的 指令 具有 相同 的 长 度 之 间 的 折 中 。 


在 第 1 章 中 已 经 看 到 如 何 将 吴语 滩 常 性 事件 的 伟大 思想 应 用 于 指令 系统 以 及 计算 机 体 
系 结构 。 加 速 RISC-V 经 常 性 事件 的 例子 ， 包 括 条 件 分 支 指令 的 PC 相对 寻 址 和 较 大 常量 操 
作 数 的 立即 数 寻 址 。 

在 机 器 之 上 的 是 人 类 可 读 的 汇编 语言 。 汇 编 器 将 其 翻译 为 机 器 可 以 理解 的 二 进 制 数 ， 甚 
至 通过 创建 硬件 中 没有 的 符号 指令 来 “扩展 ”指令 系统 。 例 如 ， 太 大 的 常量 或 地 址 被 分 成 大 
小 合适 的 块 ， 常见 的 指令 变 体 部 有 它们 自己 的 名 字 ， ee 图 2-40 列 出 了 到 目前 为 止 所 涉及 
的 RISC-V 指令 ,包括 实际 指令 和 伪 指 令 。 隐 藏 更 高 层次 的 细节 是 甘 彰 概念 的 男 一 个 例子 。 












































































































































add R Move addi 
Subtract sub R Load immediate 和 addi 
Add immediate |] addi | Jump | jal 
Load doubleword 1d | Load address 1a luitaddi 
Store doubleword sd | S 
Load word | Iw | 
Load word, unsigned WU | 
Store word SW S 
Load halfword 1h | 
Load halfword, unsigned 1hu | 
Store halfword | sh Ss 
Load byte 1b 1 
Load byte, unsigned | bu 1 
Store byte sb S 
Load reserved Ts R 
| Store conditional | R 
Load upper immediate lui U 
And and R 
Inclusive or 蛤 个 R 
Exclusive or xor R = | 
| And immediate andi | 1 
Inclusive orimmediate ori | 
Exclusive or immediate xori 1 
Shift left logical siT | RR 
Shift right logical | sr | 有 
Shift right arithmetic sra R 
Shift left logical immediate 3 
Shift right logical immediate srli | 
Shift right arithmetic immediate srai | 
Branch if equal el, beq SB 
Branch if not equal bne SB 
Branch if less than blt SB 
[pe if greater or equal bge SB 
Branch if less, unsigned b1tu SB 
Branch if greatr/eq, unsigned bgeu SB 
Jump and link ay UJ 
Jump and link register jalr J | 





图 2-40 到 目前 为 止 涉及 的 RISC- vy 左 侧 是 真实 的 RISC-V 指令 ， 右 侧 是 伪 指 
令 。 图 2-1 展示 了 本 章 介绍 的 RISC-V 体系 结构 的 更 多 细节 。 这 里 给 出 的 信息 可 以 
在 本 书 RISC-V 参考 数据 卡 的 第 1 列 和 第 2 列 中 找到 
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每 种 类 型 的 RISC-V 指令 都 与 编程 语言 中 出 现 的 结构 相关 : 

。 算术 指令 对 应 于 赋值 语句 中 的 操作 。 

e 传输 指令 最 有 可 能 发 生 在 处 理 数 组 或 结构 体 等 数据 结构 时 。 

e 条 件 分 支 用 于 证 语句 和 循环 中 。 

e 无 条 件 分 支 用 于 过 程 调 用 和 返回 ， 以 及 case/switch 语句 。 

这 些 指令 出 现 频率 不 相等 ， 少 数 沉 用 指令 在 大 多 数 指令 中 占 主导 地 人 位。 例如， 图 2-41 
展示 了 SPEC CPU2006 的 每 类 指令 的 出 现 频率 。 指 令 的 不 同 出 现 频率 在 数据 路 径 、 控 制 和 流 
水 线 的 章节 中 起 着 重要 作用 。 


频率 
指令 类 别 RISC-V 示 例 对 应 的 高 级 语言 
算术 























add, sub, addi 赋值 语句 中 的 操作 16% | 48% 
数据 传输 11d，sd，lw，sw，1h，sh，1b，sb，1ui | 对 存储 器 中 数据 结构 的 引用 | 35% | 36% 
逻辑 rid 赋值 语句 中 的 操作 12% | 4% 
分 支 beq, bne, blt, bge, bltu, bgeu if 语 句 ; 循环 34% | 8% 
跳 转 jal, jalr 过 程 调用 & 返 回 ; switch 语 句 | 2% | 0% 

















图 2-41 RISC-V 指令 类 别 、 示 例 、 相 应 的 高 级 程序 语言 结构 ， 以 及 RISC-V 指令 按 平均 整 
数 和 浮 点 数 在 SPEC CPU2006 基准 测试 上 分 类 执行 的 百分比 。 图 3-24 显示 了 执行 
的 各 个 RISC-V 指令 的 平均 百分比 

在 第 3 章 解释 计算 机 运算 之 后 ， 将 继续 揭示 RISC-V 指令 系统 体系 结构 。 


〗 2.21 历史 视角 和 扩展 阅读 


本 节 将 逐步 介绍 指令 系统 体系 结构 (Instruction Set Architecture，ISA) 的 历史 ， 并 简要 
介绍 编程 语言 和 编译 器 。ISA 包括 累加 器 体系 结构 、 通 用 寄存 器 体系 结构 、 栈 体系 结构 以 
及 x86 和 ARM 的 32 位 体系 结构 ARMv7 的 简短 历史 。 也 回顾 了 高 级 语言 计算 机 体系 结构 的 
争议 问题 和 精简 指令 系统 计算 机 体系 结构 。 编 程 语 言 的 历史 包括 Fortran 、Lisp 、Algol、C、 
Cobol、Pascal 、Simula 、Smalltalk 、C++ 和 Java， 编 译 需 的 历史 包含 其 重要 里 程 碑 和 实现 它 
们 的 先驱 。2.21 节 的 剩余 部 分 可 在 线 查找 。 


2.22 ”练习 


2.1 [5 ] <2.2> 对 于 以 下 C 语句 ， 请 编写 相应 的 RISC-V 汇编 代码 。 假 设 C 变 量 f、g 和 h 已 经 分 
别 放 于 寄存 器 x5 、x6 和 x7 中 。 使 用 最 少数 量 的 RISC-V 汇编 指令 。 
1 





2.2 [5 ] <2.2> 编写 一 条 C 语句 ， 对 应 以 下 两 条 RISC-V 汇编 指令 。 


人 
5 


2.3 [5 ] <2.2, 2.3> 对 于 以 下 C 语句 ， 请 编写 相应 的 RISC-V 汇编 代码 。 假 设 变量 f.g.h、i 和 j 分 
别 分 配给 寄存 器 x5 、x6 、x7 、x28 和 x29。 假设 数 组 A 和 8 的 基地 址 分 别 在 寄存 器 x10 和 
x11 中 


B[8] = A[Li=j]; 
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2.4 


2.5 


2.6 
2.7 


2.8 


2.9 


2.10 


2.10.1 


2.10.2 
2.10.3 


2.10.4 
2.10.5 


2.10.6 
2.11 


务 2 亲 





[ 10 ] <2.2, 2.3> 对 于 以 下 RISC-V 汇编 指令 ， 相 应 的 C 语句 是 什么 ? 假设 变量 f、g、h、i 和 j 
分 别 分 配给 寄存 器 x5、x6、x7 、x28 和 x29。 假设 数组 A 和 B 的 基地 址 分 别 在 寄存 器 x10 和 
x11 中 。 


S| Ti X30 :5 和 人 大 X30 = F*8 
add x30, x10, x30 // x30 = &ALf] 
1 人 丰台 = 8 
ud Xl XL Bal VE IL = EG 
1d x5, 0(x30) | 


dT T3006 吕 

1d X30 OCXLD2Y 

dg X30 D0 3 

sd X30 QCX31) 

[5 ] <2.3> 分 别 给 出 值 0xabcdef12 在 小 端 对 齐 和 大 端 对 齐 机 器 的 存储 器 中 的 排列 。 假 设 数据 
从 地 址 0 开始 存储 ， 字 长 为 4 个 字 节 。 

[5] <2.4> 将 0xabcdef12 转换 成 十 进 制 。 

[ 5 ] <2.2, 2.3> 将 以 下 C 代码 转换 成 RISC-V 指令 。 假 设 变量 f、g、h、i 和 j 分 别 分 配给 寄存 
器 x5、x6、x7、x28 和 x29。 假设 数组 A 和 $B 的 基地 址 分 别 在 寄存 器 x10 和 x11 中 。 假 
设 数组 A 和 B 的 元 素 是 一 个 字 为 8 字 节 : 

BL8] = ALi] + ALj]; 


[ 10 ] <2.2, 2.3> 将 以 下 RISC-V 指令 转换 成 C 代码 。 假 设 变 量 f、g、h、i 和 j 分 别 分 配给 寄 
存 器 x5、x6、x7、x28 和 x29。 假设 数组 A 和 B 的 基地 址 分 别 在 寄存 器 x10 和 x11 中 。 


addi x30, x10, 8 

addl -XI3l, xl, 0 

sd x OCXSOY 

1d x30s Q(XI0) 

add x5, ‘30, x3l 

[ 20 ] <2.2, 2.5> 对 于 练习 2.8 中 的 每 条 RISC-V 指令 ， 写 出 操作 码 (op)、 源 寄存 器 (rsl ) 和 目 
标 寄 存 器 (rd) 字段 的 值 。 对 于 I 型 指令 ， 写 出 立即 数字 段 的 值 ， 对 于 R 型 指令 ， 写 出 第 二 个 
源 寄存 器 (rs2 ) 的 值 。 对 于 非 U 型 和 UJ 型 指令 ， 写 出 funct3 字段 ， 对 于 R 型 和 S 型 指令 ， 
写 出 funct7 字段 。 

假设 寄存 器 x5 和 x6 分 别 保存 值 0x8000000000000000 和 0xD000000000000000。 


[5 ] <2.4> 以 下 汇编 代码 中 x30 的 值 是 多 少 ? 

add x30, x5, x6 

[5 ] <2.4> x30 中 的 结果 是 否 为 预期 结果 ， 或 者 是 否 溢出 ? 

[5 ] <2.4> 对 于 上 面 指定 的 寄存 器 x5 和 x6 的 内 容 ， 以 下 汇编 代码 中 x30 的 值 是 多 少 ? 
Su X30 ,5 

[5 ] <2.4> x30 中 的 结果 是 否 为 预期 结果 ， 或 者 是 否 溢出 ? 

[5 ] <2.4> 对 于 上 面 指定 的 寄存 器 x5 和 x6 的 内 容 ， 以 下 汇编 代码 中 x30 的 值 是 多 少 ? 


dd X30 XS, X60 
add x30, x30, x5 


[5 ] <2.4> x30 中 的 结果 是 否 为 预期 结果 ， 或 者 是 否 溢出 ? 
假设 寄存 器 x5 保存 值 12810。 
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2.11.1 [5 ] <2.4> 对 于 指令 add x30，x5，x6， 求 出 导致 结果 溢出 的 x6 值 的 范围 ? 
2.11.2 [5 ] <2.4> 对 于 指令 sub x30，x5，x6， 求 出 导致 结果 溢出 的 x6 值 的 范围 ? 
2.11.3 [5] <2.4> 对 于 指令 sub Xx30，X6，x5， di 
2.12 [5]<2.2,2.5> 写 出 以 下 二 进 制 值 对 应 的 指令 类 型 和 汇编 语言 指 


0000 0000 0001 0000 1000 0000 1011 0011， 


提示 : 图 2-20 可 能 有 所 帮助 。 

2.13 [5 ] <2.2, 2.5> 写 出 以 下 指令 的 指令 类 型 和 十 六 进 制 表 示 : 
sd X55 32(X30) 
] <2.5> 写 出 以 下 RISC-V 字段 描述 的 指令 的 指令 类 、 汇 编 语 言 指令 以 及 二 进 制 表 示 : 
opcode=0x33, funct3=0x0, funct7/=0x20, rs2=5, rsl=7, rd=6 

2.15 [5]<2.5> 写 出 以 下 RISC-V 字段 描述 的 指令 的 指令 类 型 、 汇 编 语言 指令 以 及 二 进 制 表 示 : 

opcode=0x3, funct3=0x3, rsl=27, rd=3, imm=0x4 

2.16 ”假设 希望 将 RISC-V 寄存 器 堆 扩展 为 128 个 寄存 器 ， 并 将 指令 系统 扩展 为 原来 的 四 倍 。 
2.16.1 [5 ] <2.5> 这 将 如 何 影 响 R 型 指令 中 每 个 字段 的 大 小 ? 
2.16.2 [5 ] <2.5> 这 将 如 何 影响 工 型 指令 中 每 个 字段 的 大 小 ? 
2.16.3 [5 ] <2.5, 2.8, 2.10> 提出 的 两 种 变化 中 ， 每 种 变化 如 何 减 小 RISC-V 汇编 程序 的 大 小 ? 另 一 方 


面 ， 变 化 如 何 增加 RISC-V 汇编 程序 的 大 小 ? 
2.17 ”假设 有 如 下 寄存 器 内 容 : 


= 0x00000000AAAAAAAA，x6 = 0x1234567812345678 
2.17.1 [5 ] <2.6> 对 于 上 面 显示 的 寄存 器 值 ， 以 下 指令 序列 中 x7 的 值 是 多 少 ? 


办 汪 和 汪 3 
or WX RE 


2.17.2 [5 ] <2.6> 对 于 上 面 显示 的 寄存 器 值 ， 以 下 指令 序列 中 x7 的 值 是 多 少 ? 
CM. 4 | 


2.17.3 [5 ] <2.6> 对 于 上 面 显示 的 寄存 器 值 ， 以 下 指令 序列 中 x7 的 值 是 多 少 ? 


Sr 
a 7 Eb 


2.18 [10] <2.6> 找到 完成 以 下 功能 的 最 短 RISC-V 指令 序列 : 从 寄存 器 x5 中 提取 16 位 到 11 位 ， 并 
使 用 该 字段 的 值 来 替换 寄存 器 x6 中 的 31 位 到 26 位 而 不 改变 其 他 位 。( 务 必 使 用 x5 = 0 和 
x6 = 0xffffffffffffffff 来 测试 代码 。) 

2.19 [5 ] <2.6> 写 出 可 用 于 实现 以 下 伪 指令 的 RISC-V 指令 系统 的 最 小 子 集 : 

Not %5. 6 // bit-wise invert 

2.20 [5 ] <2.6> 对 于 以 下 C 语句 ， 编 写 执行 相同 操作 的 最 小 RISC-V 汇编 指令 序列 。 假设 x6 = 

且 x17 是 C 的 基地 址 。 
= C[0] 《< 4; 


2.21 [5 ] <2.7> 假设 x5 保存 值 0x00000000001010000。 以 下 指令 完成 后 x6 的 值 是 多 少 ? 


订 
jms 
心 
An 
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2.23.1 
2.23.2 
2.24 


第 2 尝 











boge X53 NO ELSE 
jal x0, DONE 
ELSES 心 Ri 全 05 各 
DONE: 
假设 程序 计数 器 (PC) 置 为 0x20000000。 
[5 ] <2.10> 使 用 RISC-V 跳 转 -链接 (jal) 指令 可 以 到 达 的 地 址 范围 是 什么 ?( 换 句 话说 ， 跳 
转 指令 执行 后 PC 的 可 能 值 是 多 少 ? ) 
[5 ] <2.10> 使 用 RISC-V 的 相等 则 分 支 (beq) 指令 可 以 到 达 的 地 址 范围 是 什么 ?( 换 名 话说 ， 
分 支 指令 执行 后 PC 的 可 能 值 是 多 少 ? ) 
考虑 一 条 名 为 rpt 的 新 指令 。 该 指令 将 循环 的 条 件 检查 和 计数 器 递减 组 合成 单条 指令 。 例 如 
rpt x29，1oop 将 执行 以 下 操作 : 
的 
X29 = NE ls 
goto loop 
} 
[5 ] <2.7, 2.10> 如 果 要 将 该 指令 添加 到 RISC-V 指令 系统 ， 那 么 最 合适 的 指令 格式 是 什么 ? 
[5 ] <2.7> 执行 相同 操作 的 RISC-V 指令 的 最 短 序列 是 什么 ? 
考虑 以 下 RISC-V 循环 : 
LOOP: beq x6, x0, DONE 
addi X60 MG, =1 
Rudi XO Rs 2 
jal XO LOOR 
DONE: 
[5 ] <2.7> 假设 寄存 器 x6 初始 化 为 10。 寄 存 器 x5 的 最 终 值 是 多 少 (假设 x5 初始 值 为 零 ) ? 
[5 ] <2.7> 对 于 上 面 的 循环 ， 编 写 等 效 的 C 代码 。 假 设 寄存 器 x5 和 x6 分 别 是 整 型 acc 和 i。 
[5 ] <2.7> 对 于 上 面 用 RISC-V 汇编 语言 编写 的 循环 ， 假 设 寄 存 器 x6 初始 化 为 N。 总 共 执 行 了 
多 少 条 RISC-V 指令 ? 
[5 ] <2.7> 对 于 上 面 用 RISC-V 汇编 语言 编写 的 循环 ， 将 指令 “beq x6, x0, DONE” 替 换 为 
“blt x6，x0，DONE” 指 令 并 写 出 等 效 的 C 代码 。 
[ 10 ] <2.7> 将 以 下 C 代码 转换 成 RISC-V 汇编 代码 。 使 用 最 少数 量 的 指令 。 假设 a、b、i 和 j 
的 值 分 别 在 寄存 器 x5 、x6 、x7 和 x29 中 。 另 外 ,假设 寄存 器 x10 保存 数组 0 的 基 址 。 
for(i=0; i<a; i++) 
forti=0: jbs j++) 
D[4xj] = i + j; 
[5 ] <2.7> 实现 练习 2.25 中 的 C 代码 需要 多 少 条 RISC-V 指令 ?如 果 变 量 a 和 b 初始 化 为 10 和 
1 且 数 组 0 的 所 有 元 素 初始 值 都 为 0， 那 么 为 完成 循环 执行 的 RISC-V 指令 总 数 是 多 少 ? 
[5 ] <2.7> 将 以 下 循环 转换 为 C 代码 。 假 设 C 语言 级 的 整数 i 保存 在 寄存 器 x5 中 ,x6 保存 名 
为 result 的 C 语言 级 的 整数 ，x10 保存 整数 MemArray 的 基 址 。 
addi x6, x0, 0 
addi X29 0: 100 
LOOP: Md X71, QCKLOY 
gg 7 
dai DO x 吕 


addi 6 Kos J 
bi x6 x29, LOOP 


2529 


2.32 


2.33 


2.34 


2.35 
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[ 10 ] <2.7> 重 写 练习 2.27 中 的 循环 以 减少 执行 的 RISC-V 指令 数 。 提 示 : 注意 变量 i 仅 用 于 循 
环 控 制 。 
[30 ] <2.8> 用 RISC-V 汇编 语言 实现 以 下 C 代码 。 提 示 : 记 住 栈 指针 必须 保持 16 位 对 齐 。 
int Tib( Tnt, myt 
if (n==0) 
return 0; 
elseé if (n == 1) 
return 1; 
else 
peturn Fibtn=lh TF fib(n=2)s 
| 
[ 20 ] <2.8> 对 于 练习 2.29 中 的 每 个 函数 调用 ， 写 出 函数 调用 后 栈 的 内 容 。 假 设 栈 指 针 最 初 位 于 
地 址 0x7ffffffc， 且 遵循 图 2-11 中 指定 的 寄存 器 约定 。 
| 20 ] <2.8> 将 函数 f 转换 为 RISC-V 汇编 语言 。 假 设 g 的 函数 声明 是 int g(int a,int b)。 
函数 f 的 代码 如 下 : 
Tmt FIR ds TE Be St ET 
retwurn g(tyg(ta. by), ctd)s 
} 
[5 ] <2.8> 可 以 在 这 个 函数 中 使 用 尾 调用 优化 吗 ” 如 果 不 能 ， 请 解释 原因 。 如 果 能 ， 在 有 和 没有 
优化 的 情况 下 ，f 执行 的 指令 数 有 何不 同 ? 
[5 ] <2.8> 在 练习 2.31 的 函数 f 返回 之 前 ， 寄 存 器 x10 ~ x14、x8、xl 和 sp 的 内 容 是 什么 ? 
记 住 ， 函 数 f 的 整体 是 已 知 的 ,但 只 知道 函数 g 的 声明 。 
[ 30 ] <2.9> 用 RISC-V 汇编 语言 编写 一 个 程序 ， 将 包含 十 进 制 正 整 数 或 负 整 数字 符 串 的 ASCII 
字符 串 转换 为 整数 。 要 求 程序 用 寄存 器 x10 保存 一 个 以 空 字符 结尾 的 字符 串 的 地 址 ， 该 字符 
串 包 含 一 个 可 选 的 “+” 或 “-”， 后 跟 一 些 0 到 9 的 数字 组 合 。 要 求 程序 计算 与 这 个 数字 字 
符 串 相等 的 整数 值 ， 然 后 将 数字 放 人 寄存 器 x10 中 。 如 果 字 符 串 中 的 任何 位 置 出 现 非 数字 字 
符 ， 则 程序 停止 并 将 值 -1 存 人 寄存 器 x10 中 。 例 如 ， 如 果 寄 存 器 x10 指向 三 个 字 节 50io、 
52io、0io (以 空 字符 结尾 的 字符 串 “24”) 的 序列 ， 则 当 程 序 停止 时 ， 寄 存 器 x10 应 包含 值 
24io。RISC-V 的 mul] 指令 将 两 个 寄存 器 作为 输入 。 没 有 “mu1i ”指令 。 因 此 ， 只 需 将 常数 
10 存储 在 寄存 器 中 。 
考虑 以 下 代码 : 
lb. wo .QC 
sd Xx6, ‘BlXY) 


假设 寄存 器 x7 包含 地 址 0x10000000， 且 地 址 中 的 数据 是 0x1122334455667788。 

[5 ] <2.3, 2.9> 在 大 端 对 齐 的 机 器 上 0x10000008 中 存储 的 是 什么 值 ? 

[5 ] <2.3, 2.9> 在 小 端 对 齐 的 机 器 上 0x10000008 中 存储 的 是 什么 值 ? 

[5 ] <2.10> 写 出 产生 64 位 常量 0x11223344556677882 的 RISC-V 汇编 代码 ， 并 将 该 值 存储 
到 寄存 器 x10 中 。 

[ 10 ] <2.11> 编写 RISC-V 汇编 代码 ,使 用 1r.d/sc.d 指令 将 以 下 C 代码 实现 为 原子 “setmax” 
操作 。 这 里 ， 参 数 shvar 包含 共享 变量 的 地 址 ， 如 果 x 大 于 它 指 向 的 值 ， 则 应 该 用 x 替换 : 


vold Setmax( nt sthvar, int Xx) A 
// Begin critical section 
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if (Xx > *shvar) 
*shvar = X: 
// End critical section} 
} 


[5 ] <2.11> 以 练习 2.37 中 编写 的 代码 为 例 ， 说 明 当 两 个 处 理 器 同时 开始 执行 该 关键 部 分 时 会 发 
生 什 么 ， 假 设 每 个 处 理 器 每 周期 只 执行 一 条 指令 。 

假设 给 定 处 理 器 算术 指令 的 CPI 为 1， 加 载 /存储 指 令 的 CPI 为 10， 分 支 指令 的 CPI 为 3。 假 
设 程序 有 5 亿 条 算术 指令 、3 亿 条 加 载 /存储 指令 和 1 亿 条 分 支 指令 。 

[5 ] <1.6, 2.13> 假设 将 新 的 、 更 强大 的 算术 指令 添加 到 指令 系统 中 。 平 均 而 言 ， 通 过 使 用 这 些 
更 强大 的 算术 指令 ， 可 以 将 执行 程序 所 需 的 算术 指令 数 减 少 23%， 同 时 时 钟 周期 时 间 仅 增加 
10%。 这 是 一 个 好 的 设计 选择 吗 ? 为 什么 ? 

[5 ] <1.6, 2.13> 假设 有 一 种 让 算术 指令 性 能 加 倍 的 方法 。 机 器 的 整体 加 速 是 多 少 ? 如 果 有 一 种 
方法 可 以 将 算术 指令 的 性 能 提高 10 倍 ， 机 器 性 能 的 整体 加 速 又 是 多 少 ? 

假设 对 于 一 个 给 定 程 序 ，70% 的 执行 指令 是 算术 指令 ，10% 是 加 载 / 存储 指令 ，20% 是 分 支 指令 。 
[ 5 ] <1.6, 2.13> 假设 算术 指令 需要 2 周期 ， 加 载 / 存储 指令 需要 6 周期 ， 而 一 条 分 支 指令 需要 3 
周期 ， 求 平均 CPI。 

[ 5 ] <1.6, 2.13> 对 于 性 能 提高 25%， 如 果 加 载 / 存储 和 分 支 指令 都 没有 改进 ， 一 条 算术 指令 平 
均 需 要 多 少 周期 ? 

[5 ] <1.6, 2.13> 对 于 性 能 提高 50%， 如 果 加 载 /存储 和 分 支 指令 都 没有 改进 ， 一 条 算术 指令 平 
均 需 要 多 少 周期 ? 

[ 10 ] <2.19> 假设 RISC-V ISA 包含 比例 偏 移 寻 址 模式 ， 类 似 于 2.17 节 (图 2-35 ) 中 描述 的 x86。 
描述 如 何 使 用 比例 偏 移 寻 址 模式 加 载 来 进一步 减少 执行 练习 2.4 中 给 出 的 函数 所 需 的 汇编 指 
令 数 。 

[10] <2.19> 假设 RISC-V ISA 包含 比例 偏 移 寻 址 模式 ， 类 似 于 2.17 节 (图 2-35 ) 中 描述 的 
x86。 描 述 如 何 使 用 比例 偏 移 寻 址 模式 加 载 来 进一步 减少 实现 练习 2.7 中 给 出 的 C 代码 所 需 的 
汇编 指令 数 。 
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计算 机 的 五 个 经 典 部 件 


3.1 引言 


计算 机 的 字 由 位 组 成 ， 因 此 ， 字 可 以 被 表示 为 二 进 制 数字 。 第 | 数值 精度 才 是 科学 的 灵魂. 
2 章 说 明了 整数 可 以 用 十 进 制 或 二 进 制 形式 表示 ， 但 其 他 常用 数字 “| $2 wrey Aero 
又 该 如 何 表示 呢 ? 例如 : RE 

e 如 何 表 示 小 数 和 其 他 实数 ? 

e 如 果 运 算 产 生 了 一 个 大 到 无 法 表示 的 数 该 如 何 处 理 ? 

e 这 些 问题 中 隐藏 着 一 个 谜 : 硬件 如 何 真正 实现 乘法 或 除法 ? 

本 章 的 目标 就 是 揭 开 这 些 奥 秘 ， 包括 实数 的 表示 、 算 术 的 算法 、 实 现 这 些 算法 的 硬件 ， 
以 及 所 有 这 些 在 指令 系统 中 的 含义 。 这 些 知识 也 许 就 能 解释 你 已 经 遇 到 过 的 计算 机 疑难 了 。 
男 外， 我 们 还 将 介绍 如 何 使 用 这 些 知 识 来 加 速 计算 密集 型 程序 的 运行 。 


3.2 ”加 法 和 减法 碱 法: 加 法 机 智 的 朋友 。 
加 法 是 计算 机 中 的 必 备 操作 。 数 字 从 右 到 左 逐 位 相 加 ， 并 将 进 | 各 如 加 conespor 


AUhevey at a Foorball Factory 


位 传送 到 左 侧 的 下 一 位 数字 » 就 和 手动 运算 一 样 。 减法 也 使 用 加 法 David Letterman et al,, Boof 
实现 : 相应 的 操作 数 被 简单 取 反 后 再 进行 加 法 操作 。 En 
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| 例题 | 二进制 加 法 和 减法 = 
用 二 进 制 表 示 形 式 计 算 6ie 加 7jo， 再 计算 7o 减 610。 

00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000111 = 7 

+ 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000110， 二 褒 








= 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00001101, = 13,, 


右边 的 4 位 发 生 了 变化 。 图 3-1 展示 了 求 和 与 进位 ， 箭 头 表示 进位 是 如 何 传递 的 。 





wg YD OT Wg OF 4 
图 3-1 二 进 制 加 法 ， 显 示 从 右 到 左 的 进位 。 最 右边 一 位 将 0 和 1 相 加 ， 该 位 的 结果 为 1 且 
进位 为 0。 因 此， 右边 第 二 位 的 操作 为 0+ 1+ 1。 求 和 产生 结果 0 与 进位 1。 第 三 位 
是 1+1+1 求 和 ， 进 位 为 1 上 且 和 为 1。 第 四 位 是 1+ 0+0， 和 为 1 且 无 进位 


| 答案 | 7 减 去 6' 可 以 直接 算得 : 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000111, = 7 
- 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000110,= 6 


= 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001, = 1 


或 者 通过 使 用 -6 的 二 进 制 补 码 表 示 来 进行 加 法 运算 : 
00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000111, = 7 
+ TTLILL iLLLILL LN L111111 11L1LIL1 YiliLiLL L111TIL 10 = -6 


= 00000000 00000000 00000000 00000000 00000000 00000000 00000000 00000001, = 1 








回想 一 下 ,硬件 规模 总 是 有 一 定 限制 的 ， 比 如 字 宽 为 64 位 ， 当 运算 结果 超过 这 个 限制 
时 ， 就 会 发 生 溢出 。 在 加 法 中 何 时 会 发 生 溢出 ” 当 不 同 符号 的 操作 数 相 加 时 ， 不 会 发 生 泣 
出 ， 因 为 总 和 一 定 不 会 大 于 其 中 任意 一 个 操作 数 。 例 如 ，-10+4=-6。 由 于 操作 数 可 以 表示 
成 64 位 上 且 其 总 和 不 大 于 任 一 操作 数 ， 所 以 总 和 也 一 定 能 表示 成 64 位 。 因 此 ， 当 正 负 操作 数 
相 加 时 不 会 发 生 溢出 。 

在 减法 中 也 有 类 似 的 不 会 发 生 溢出 的 情况 ， 但 原理 相反 : 当 操作 数 的 符号 相同 时 ， 不 会 
发 生 溢出 。 为 了 说 明 这 一 点 ,需要 记 住 c-a=c+ ( -a)， 这 是 因为 我 们 通过 将 第 二 个 操作 数 取 
反 然 后 相 加 来 实现 减法 。 因 此 ， 当 相同 符号 的 操作 数 相 减 时 ， 最 终 会 变 成 相反 符号 的 操作 数 
相 加 。 从 上 一 段落 可 知 ， 在 这 种 情况 下 不 会 发 生 溢出 。 

知道 加 法 和 减法 运算 在 什么 时 候 不 会 发 生 溢出 固然 很 好 ,但 如 何 检测 它 何 时 发 生 呢 ? 显 
然 ， 加 或 减 两 个 64 位 的 数字 可 能 产生 一 个 需要 65 位 才能 表示 的 结果 。 

缺少 第 65 位 意味 着 当 溢出 发 生 时 ， 符 号 位 被 结果 的 值 占用 而 非 结 果 的 正确 符号 。 由 于 
溢出 结果 只 可 能 多 一 位 ， 所 以 只 有 符号 位 可 能 是 错误 的 。 因 此 ， 当 两 个 正 数 相 加 但 和 为 负数 
时 ， 说 明 发 生 了 溢出 ， 反 之 亦 然 。 这 个 假 的 和 值 意味 着 产生 了 向 符号 位 的 进位 。 
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当 正 数 减 负数 并 得 到 负数 结果 ， 或 者 当 负 数 减 正 数 且 结果 为 正 数 时 ,减法 运算 发 生 溢 
出 。 这 种 荒 廖 的 结果 意味 着 产生 了 从 符号 位 的 借 位 。 图 3-2 展示 了 溢出 发 生 时 的 运算 、 操 作 
数 和 结果 的 各 种 组 合 情 况 。 


操作 数 A | 。 操作 数 B 表明 溢出 的 结果 





图 3-2 ”加 法 和 减法 运算 的 溢出 条 件 


刚刚 看 到 了 如 何在 计算 机 中 检测 二 进 制 补 码 操作 的 溢出 。 那 么 无 符号 整数 的 溢出 情况 是 
怎样 的 呢 ? 无 符号 整数 通常 用 于 表示 忽略 溢出 的 内 存 地址。 
幸运 的 是 ， 编 译 器 可 以 轻松 检查 出 使 用 分 支 指令 的 无 符号 溢出 。 
如 果 总 和 小 于 加 数 中 的 任何 一 个 ， 则 加 法 溢出 ， 而 如 果 差 大 于 被 减 ”| 算术 逻辑 单元 ; 执行 加 法 、 
数 ， 则 减法 溢出 。 减法 和 常见 逻辑 操作 (如 
附录 A 描述 了 执行 加 法 和 减法 运算 的 硬件 实现 ， 被 称 为 算术 逻 | AND 和 OR) 的 硬件 。 
辑 单元 或 ALU。 

| 硬 秩 7 软 件 接 日 计算 机 设计 者 必须 考虑 如 何 处 理 算术 溢出 。 尽 管 一 些 类 似 C 和 Java 
这 样 的 语言 会 忽略 整数 溢出 ， 但 像 Ada 和 Fortran 这 样 的 语言 则 需要 告知 程序 溢出 。 当 溢出 
发 生 时 ， 程 序 员 或 编程 环境 必须 决定 该 如 何 处 理 。 


小 结 


本 节 主 要 指出 ， 无论 数 的 表示 形式 如 何 ， 计 算 机 的 有 限 字 长 意味 着 算术 运算 可 能 会 产生 
过 量 而 无 法 用 这 种 固定 字 长 表示 的 运算 结果 ， 即 发 生 溢出 。 虽 然 无 符号 数 的 溢出 容易 检测 ， 
但 无 符号 数 通 常 使 用 自然 数 做 地 址 运算 ， 而 程序 通常 不 需要 检测 地 址 计算 的 溢出 ， 所 以 这 些 
溢出 总 被 忽略 。 二 进 制 补 码 (有 符号 数 ) 对 检测 溢出 提出 了 更 大 的 挑战 ， 但 仍 有 一 些 软件 系 
统 需要 识别 溢出 ， ep 

| 详细 阐述 在 通用 微 处 理 器 中 不 常见 的 一 个 特性 是 饱和 操作 。 饱 和 ( saturation) 意味 着 
了 Ce 
算 。 人 饱和 操作 可 能 更 适用 于 多 媒体 操作 。 例 如 ,收音 机 上 的 音量 旋钮 可 能 会 令 人 愧 恼 ， 当 你 
转动 它 时 ， 音 量 会 持续 变 大 一 段 时 间 ， 然 后 又 立即 变 得 非常 柔和 。 无 论 旋钮 开 到 多 大 ， 具 有 
饱和 度 的 旋钮 都 会 停 在 最 高 音量 处 。 标 准 指令 系统 的 多 媒体 扩展 通常 提供 饱和 计算 。 

| 说 细 阐 述 加 法 的 速度 取决 于 向 高 位 进位 的 计算 速度 。 有 多 种 方案 可 预测 进位 ， 最 坏 情 
况 下 进位 时 间 是 加 法 器 位 长 的 log: 的 函数 。 这 些 预 期 信号 速度 更 快 ， 因 为 它们 依次 通过 的 门 
数 更 少 ， 但 需要 更 多 的 门 来 预测 正确 的 进位 。 最 常见 的 是 超前 进位 加 法 器 (carry lookahead )， 
见 附录 A 中 的 A.6 节 。 





自我 检测 一 些 编程 语言 允许 对 字 节 和 半 字 的 二 进 制 补 码 进行 整数 运算 ， RISC-V 仅 对 整 字 
进行 整数 算术 运算 。 正 如 第 2 章 所 述 ，RISC-V 确实 有 字 节 和 半 字 的 数据 传输 操 f 。 那么 应 该 为 字 节 
和 半 字 算术 运算 生成 哪些 RISC-V 指令 呢 ? 
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”1 用 1b、1h 进行 取 数 ; 用 add、sub、mu1、div 进行 算术 运算 ， 在 多 所 作 后 用 an 将 结 
。。 果 对 齐 到 8 位 或 16 位 ; 然后 使 用 sb、sh 进行 存储 。 
2. 用 1b、1h 进行 取 数 ; 用 add、sub、mu1、div 进行 算术 运算 ; 然后 使 用 sb、 pe 


3.3， 乘法 
现在 我 们 已 经 完成 了 对 加 法 和 减法 的 解释 ， 准备 构建 更 复杂 的 ”| 来 法 令 人 烦恼 ， 除 法 同样 
乘法 运算 。 糟糕 ;比例 法 使 我 迷茫 ， 


首先 让 我 们 回顾 一 下 在 手工 计算 十 进 制 数 乘法 时 的 步骤 和 操作 | 瑟 演 年 让 才 妆 和 


数 名 称 。 先 看 一 个 例子 ，10001o x 1001o， 我 们 限制 这 个 例子 中 只 使 “| wwseryi wsz0 
用 数字 0 和 1， 稍 后 会 解释 限制 原因 。 


被 乘 数 1000， 
乘 数 x 1001, 


1000 
0000 
0000 
1000 


积 1001000 ， 


第 一 个 操作 数 称 为 被 乘 数 ， 第 二 个 操作 数 称 为 乘 数 ， 最 后 的 结果 称 作 积 。 你 也 许 还 记得 
小 学 时 学 到 的 乘法 法 则 ， 即 每 次 从 右 到 左 选择 乘 数 中 的 一 位 ， 用 这 一 位 乘 上 被 乘 数 ， 然 后 将 
所 得 到 的 中 间 结 果 相 对 于 前 一 位 的 中 间 结 果 左 移 一 位 。 

可 以 观察 到 ， 积 的 位 数 比 被 乘 数 和 乘 数 都 大 得 多 。 事 实 上 ， 如 果 我 们 忽略 符号 位 , 于 位 
被 乘 数 和 m 位 乘 数 的 积 是 ntm 位 的 数 。 也 就 是 说 ， 需 要 ntm 位 来 表示 所 有 可 能 的 结果 。 因 
此 , 像 加 法 一 样 ， 乘法 也 需要 处 理 溢出 ， 因 为 我 们 常常 想 用 一 个 64 位 的 乘积 来 表示 两 个 64 
位 数 相 乘 的 结果 。 

在 这 个 例子 中 ,我 们 把 十 进 制 数 限制 为 0 和 1。 因 为 只 有 两 个 选择 ， 所 以 每 一 步 的 乘法 
都 很 简单 : 

1. 如 果 乘 数位 为 1， 只 需 将 被 乘 数 ( 1 x 被 乘 数 ) 复制 到 适当 的 位 置 。 

2. 如 果 乘 数位 为 0， 则 将 0 (0 x 被 乘 数 ) 置 于 适当 的 位 置 。 

虽然 上 面 十 进 制 的 例子 恰巧 只 使 用 了 0 和 1, 但 是 二 进 制 乘法 必须 只 使 用 0 和 1， 因 此 
也 只 提供 了 两 个 选择 。 

现在 我 们 已 经 回顾 了 乘法 的 基础 知识 ， 按 照 惯 例 下 一 步 是 要 介绍 高 度 优化 的 乘法 硬件 。 
我 们 打破 了 这 一 惯例 ， 相 信 你 将 通过 观察 多 代 乘 法 硬件 和 算法 的 演变 而 获得 更 深入 的 理解 。 
现在 ， 让 我 们 假设 被 乘 数 和 乘 数 都 是 正 数 。 


3.3.1 串 行 版 的 乘法 算法 及 其 硬件 实现 


该 设计 模仿 了 我 们 在 小 学 学 到 的 算法 ， 图 3-3 展示 了 该 设计 的 硬件 结构 。 我 们 绘制 出 了 
硬件 结构 ， 使 得 数据 从 上 到 下 流动 ， 更 接近 于 使 用 纸 笔 计算 的 方法 。 

假设 乘 数 位 于 64 位 乘法 器 寄存 器 中 ， 并 且 将 128 位 乘积 寄存 器 初始 化 为 0。 从 上 面 的 
纸 笔法 示例 中 可 以 清楚 地 看 到 ， 我 们 需要 在 每 一 步 计算 中 将 被 乘 数 左 移 一 位 ， 因 为 它 可 能 会 
和 之 前 的 中 间 结 果 相 加 。 在 64 步 计算 之 后 ，64 位 被 乘 数 会 向 左 移动 64 位 。 因 此 ， 我 们 需要 
一 个 128 位 的 被 乘 数 寄存 器 ， 将 其 初始 化 为 右 半 部 分 的 64 位 被 乘 数 和 左 半 部 分 的 零 。 然 后 
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该 寄存 器 每 执行 一 步 便 左 移 1 位 ， 将 被 乘 数 与 128 位 的 乘积 寄存 器 中 的 中 间 结 果 对 齐 并 累加 


到 中 间 结 果 。 





图 3-3 ”第 一 版 乘法 器 硬件 。 被 乘 数 寄存 器 、ALU 和 乘积 寄存 器 都 是 128 位 长 ， 只 有 乘 数 寄 
存 器 是 64 位 。( 附 录 A 描述 了 ALU。) 64 位 被 乘 数 最 初 存放 在 被 乘 数 寄存 器 的 右 半 
部 分 ， 每 一 步 左 移 1 位 。 乘 数 在 每 步 以 相反 方向 移 位 。 算 法 开始 前 ， 积 初始 化 为 0。 
控制 部 件 决定 何 时 对 被 乘 数 寄存 器 和 乘 数 寄存 器 进行 移 位 ， 以 及 何 时 将 新 值 写 人 积 


寄存 器 


图 3-4 显示 了 对 于 操作 数 的 每 一 
位 都 需要 做 的 三 个 基本 步 又。 第 一 步 
中 的 乘 数 最 低位 ( 乘 数 第 0 位 ) 决定 
了 是 否 要 把 被 乘 数 加 到 积 寄存 器 当中 。 
第 二 步 中 的 左 移 起 着 将 中 间 操 作 数 左 
移 的 作用 ， 就 像 手 工 纸 笔 做 乘法 一 样 。 
第 三 步 中 的 右 移 给 出 了 下 次 迭代 要 检 
测 的 乘 数 的 下 一 位 。 这 三 个 步骤 重复 
64 次 就 会 得 到 最 后 的 积 。 如 果 每 个 步 
又 花费 一 个 时 钟 周期 ， 那 么 该 算法 计 
算 两 个 64 位 数 相 乘 差不多 要 花费 200 
个 时 钟 周 期 。 像 乘法 这 样 的 算术 运算 
的 重要 性 随 程序 的 不 同 而 变化 ， 但 一 
般 加 法 和 减法 出 现 的 次 数 会 是 乘法 的 5 
到 100 倍 。 因 此 ， 在 许多 应 用 中 ， 乘 
法 花费 知 干 时 钟 周 期 并 不 会 显著 影响 
性 能 。 但 是 ，Amdahl 定律 (参见 1.10 
节 ) 提醒 我 们 ， 一 个 慢 速 操作 如 果 占 据 
了 一 定 的 比例 ， 也 会 限制 程序 性 能 。 

这 种 算法 和 硬件 很 容易 改进 到 每 
步 只 花费 一 个 时 钟 周期 。 加 速 来 源 于 操 
作 的 并 行 执行 : 如 果 乘 数位 是 1， 那 么 






乘 数 第 0 位 =0 


是 : 64 次 重复 


图 3-4 第 一 种 乘法 算法 ， 采 用 了 图 3-3 所 示 的 硬件 。 
如 果 乘 数 的 最 低 有 效 位 为 1， 则 将 乘 数 加 到 
积 上 。 如 果 不 是 ， 则 执行 下 一 步 。 在 下 两 步 
中 将 被 乘 数 左 移 和 乘 数 右 移 。 将 这 三 个 步骤 
重复 64 次 
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对 被 乘 数 和 乘 数 进行 移 位 ， 与 此 同时 ， 把 被 乘 数 加 到 积 上 。 硬 件 只 需要 保证 它 检测 的 是 乘 数 
的 最 右 位 ， 而 且 得 到 的 是 被 乘 数 移 位 前 的 值 。 注 意 到 寄存 器 和 加 法 器 有 未 使 用 的 部 分 后 ， 通 
常会 将 加 法 器 和 寄存 器 的 位 长 减 半 以 进一步 优化 硬件 结构 。 图 3-5 展示 了 修正 后 的 硬件 。 


控制 检测 


129 位 





图 3-5 改良 版 乘法 器 硬件 。 和 图 3-3 的 第 一 版 相 比 : 被 乘 数 寄存 器 和 ALU 都 被 缩减 为 64 
位 ， 现 在 是 积 寄 存 器 来 进行 右 移 ， 独 立 的 乘 数 寄存 器 也 消失 了 ; 乘 数 被 放 到 了 积 策 
存 器 的 右 半 部 分 ， 该 寄存 器 也 从 128 位 增加 一 位 到 129 位 以 保存 加 法 器 的 进位 。 这 
些 改变 的 地 方 用 灰色 显示 
| 磊 征 /软件 搂 画 ) 当 乘 数 是 常数 的 时 候 ， 也 可 以 用 移 位 运算 来 代替 算术 运算 。 有 些 编译 
器 会 将 短 常数 的 乘法 运算 替换 为 一 系列 的 移 位 和 加 法 运算 。 因 为 左 移 一 位 相当 于 把 这 个 数 变 
为 之 前 的 2 倍 ， 因 此 左 移 相 当 于 把 它 和 2 的 寡 相 乘 。 正 如 第 2 章 提 到 的 ， 几 乎 所 有 的 编译 器 
都 会 用 移 位 运算 来 代替 同 2 的 圭 相 乘 ， 进 行 强度 缩减 优化 。 
| 例题 | 乘法 算法 = 
使 用 4 位 长 的 数 以 节省 空间 ， 计 算 2ox 31 或 者 0010; x 0011; 的 乘积 。 
| 答案 | 图 3-6 给 出 了 按 图 3-4 标 出 的 每 一 步 各 个 寄存 器 中 的 值 ， 最 后 得 到 的 结果 是 
00000110; 或 者 6o。 灰 色 的 数 表示 寄存 器 值 在 该 步 的 变化 ， 被 圈 起 来 的 位 是 用 来 决定 下 一 步 
操作 的 待 检测 位 。 


[if | | 
人 
1 a 1=> 积 = 积 + 被 乘 数 0011 0000 0010 | ooo00o10 | 0010 
: 被 乘 数 左 移 0011 0000 0100 0000 0010 
和 1a; 1=> 积 = 积 + 被 乘 数 0001 0000 0100 
2 : 被 乘 数 左 移 0001 0000 1000 
3 : 乘 数 右 移 0000 0000 1000 


3 : 0=> 无 操作 0000 0000 1000 0000 0110 
2 : 被 乘 数 左 移 0001 0000 0000 0110 














































| 3 , 乘 数 移 | 0000 | 00010000 | 00000110 | 
000 | oooooue | 
0010 0000 | 0000 0110 
00100000 | 00000110 





图 3-6 采用 图 3-4 算法 的 乘法 举例 。 圆 圈 圈 起 来 的 是 决定 下 一 步 执行 的 待 检测 位 
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3.3.2 ”天 符号 乘法 


到 目前 为 止 ， 我 们 只 处 理 了 正 数 乘法 的 情况 。 对 于 如 何 处 理 带 符号 乘法 ， 最 简单 的 方式 
是 先 把 被 乘 数 和 乘 数 转换 为 正 数 ， 然 后 记 住 它 们 的 初始 符号 。 这 样 ， 将 之 前 的 算法 迭代 执行 
31 次 ， 符 号 位 不 参与 计算 。 正 如 我 们 小 学 学 到 的 那样 ， 只 有 在 乘 数 和 被 乘 数 符号 相反 时 ， 对 
积 取 反 。 

事实 证 明 ， 如 果 记 住 我 们 正在 处 理 具有 无 限 位 长 的 数 ， 并 且 只 用 64 位 来 表示 它们 ， 则 
上 面 的 最 后 一 种 算法 适用 于 带 符号 数 。 因 此 ， 在 移 位 时 需要 对 带 符号 数 的 积 进行 符号 扩展 。 
当 算法 结束 时 ， 低 位 的 双 字 就 是 64 位 积 。 
3.3.3 快速 乘法 
汞 定律 提供 了 非常 充足 的 资源 ， 从 而 使 硬件 设计 人 员 可 以 实现 更 快 的 乘法 硬件 。 通 过 
在 乘法 运算 开始 的 时 候 检 查 64 个 乘 数位 ， 就 可 以 判定 是 否 要 将 被 乘 数 加 上 。 人 快速 乘法 可 以 
通过 为 每 个 乘 数位 提供 一 个 64 位 加 法 器 来 实现 : 一 个 输入 是 被 乘 数 和 一 个 乘 数 位 相 与 的 结 
果 ， 男 一 个 输入 是 上 一 个 加 法 融 的 输出 。 

一 种 简单 的 方法 是 将 右 侧 加 法 器 的 输出 端 连接 到 左 侧 加 法 器 的 输入 端 ， 形 成 一 个 高 64 
位 的 加 法 器 栈 。 另 一 种 方式 是 将 这 64 个 加 法 器 组 织 成 如 图 3-7 所 示 的 并 行 树 。 这 样 我 们 就 
只 需要 等 待 log, (64 )， 即 6 次 64 位 长 加 法 的 时 间 ， 而 不 是 64 次 。 





乘 数 63' 被 乘 数 ” 乘 数 62' 被 乘 数 ” 乘 数 61' 被 乘 数 乘 数 60， 被 乘 数 乘 数 3 * 被 乘 数 ” 乘 数 2 被 乘 数 。 乘 数 1' 被 乘 数 乘 数 0 被 乘 数 














积 127 积 126 


积 95...32 NT 积 1 积 0 


图 3-7 快速 乘法 器 硬件 。 这 个 硬件 “展开 循环 ”来 使 用 63 个 加 法 器 ， 并 协调 它们 实现 最 小 
化 时 延 ， 而 不 是 使 用 单个 64 位 的 加 法 器 63 次 


事实 上 ， 由 于 使 用 进位 保留 加 法 器 (参见 附录 A 中 的 A.6 节 )， 乘 法 的 速度 甚至 比 6 次 
加 法 还 要 快 ， 并 且 因 为 容易 将 上 述 的 设计 叶 采 化 ， 它 能 够 同时 支持 多 个 乘法 。 
3.3.4 RISC-V 中 的 乘法 

为 了 产生 正确 带 符号 或 无 符号 的 128 位 积 ，RISC-V 有 四 条 指令 : 乘 (mul1)， 乘 法 取 高 
位 Cmulh)， 无 符号 乘法 取 高 位 (mulhu) 和 有 符号 /无 符号 乘法 取 高 位 (mulhsu)。 要 获 
得 整数 64 位 积 ， 程 序 员 应 使 用 用 mul] 指令 。 要 想得到 128 位 积 的 高 64 位 ， 如 果 两 个 操作 
数 都 是 有 符号 的 ， 程 序 员 应 使 用 mulh 指令 ; 如 果 两 个 操作 数 都 是 无 符号 的 ， 则 使 用 mulhu 








指令 ; 或 者 如 果 一 个 操作 数 是 有 符号 的 而 另 一 个 是 无 符号 的 ， 则 使 用 mul hsu 指令 。 
3.3.5 总 结 


就 像 在 小 学 学 习 到 的 纸 笔 计算 方法 一 样 ， 乘 法 硬件 只 是 进行 简单 的 移 位 和 相 加 。 编 译 器 
甚至 会 直接 使 用 移 位 指令 来 做 2 的 震 的 乘法 。 通 过 使 用 更 多 硬件 ,我们 可 以 做 咯 答 加 法 ， 并 
且 做 得 更 快 。 

| 硬件 7 软件 接 日 | 软件 可 以 使 用 乘法 高 位 指令 来 检查 64 位 乘法 溢出 。 如 果 mulhu 的 结 
果 为 0， 则 64 位 乘法 不 会 溢出 。 如 果 mu1h 结果 的 所 有 位 都 是 mul 结果 的 符号 位 的 复制 ， 
则 64 位 有 符号 乘法 没有 溢出 。 


3.4 除法 
乘法 的 逆 操 作 是 除法 ， 除 法 操作 使 用 相对 较 少 且 很 诡异 。 它 其 ”| pivide etimpera 
至 会 出 现 无 效 的 计算 操作 : 除 以 0。 擅 丁 请， 建 为 “分 而 涪 之 "， 
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首先 通过 一 个 十 进 制 数 的 长 除法 来 回忆 一 下 操作 数 的 命名 以 及 | = 
小 学 时 学 习 的 除法 算法 。 由 于 与 前 一 节 类 似 的 原因 ， 我 们 仅 使 用 十 
进 制 数字 的 0 或 1。 以 下 示例 将 计算 100101010 除 以 10001o: 
1001。 商 
除数 1000。 oooT ly 被 除数 


10 

101 

1010 
-1000 


10。 余数 

除法 的 两 个 源 操作 数 分 别 叫 作 被 除数 和 除数 ， 除 法 的 结果 叫 作 | 被 除数 : 被 除 的 数 
商 ， 随 之 产生 的 附带 结果 叫 作 余数 。 下 面 是 表示 各 部 分 间 关 系 的 男 
一 种 方式 : | 除数 : 被 被 除数 除 的 数 。 

被 除数 = 商 X 除数 十 余数 

其 中 余数 小 于 除数 。 少 数 情况 下 会 有 程序 使 用 除法 指令 来 获得 余数 
而 忽略 商 。 

基本 除法 算法 试图 查看 可 以 减 去 一 个 多 大 的 数字 ， 从 而 每 次 得 
到 商 的 一 位 数 。 我 们 精心 挑选 的 十 进 制 例子 只 使 用 数字 0 和 1， 因 
此 很 容易 计算 出 除数 从 被 除数 中 减 去 的 次 数 : 要 么 是 0 次 ， 要 么 是 
1 次。 二进制 数 只 包含 0 或 1， 因 此 二 进 制 除法 仅 限 于 这 两 种 选择 ， 
这 就 简化 了 二 进 制 除法 运算 。 

假设 被 除数 和 除数 都 是 正 数 ， 那 么 商 和 余数 也 都 是 非 负 的 。 除 法 的 源 操作 数 和 两 个 结果 
都 是 64 位 数 ， 以 下 内 容 忽 略 符号 位 。 


3.4.1 除法 算法 及 其 硬件 实现 
图 3-8 展示 了 模拟 基本 除法 算法 的 硬件 。 在 开始 时 将 64 位 的 商 寄 存 器 置 0。 算 法 的 每 次 


5 





商 : 除法 的 主要 结果 ; 该 
数 乘 以 除数 再 加 上 余数 得 
到 被 除数 。 





余数 : 除法 的 附带 结果 ; 
该 数 加 上 商 和 除数 的 乘积 
得 到 被 除数 。 
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迭代 都 需要 将 除数 右 移 一 位 ， 因 此 开始 需要 将 除数 放置 到 128 位 的 除数 寄存 器 的 左 半 部 分 ， 


并 且 每 运算 一 步 并 将 其 右 移 1 位， 
使 之 与 被 除数 对 齐 。 余 数 寄存 器 
初始 化 为 被 除数 。 

图 3-9 展示 了 第 一 个 除法 算 
法 的 三 个 步 又 。 与 大 不 同 ， 计 
算 机 没有 聪明 到 能 预先 知道 除数 
是 否 小 于 被 除数 。 它 必须 先 在 步 
又 1 中 减 去 除数 ， 这 正 是 我 们 实 
现 比较 所 使 用 的 方式 。 如 果 结 果 
是 正 数 ， 则 除数 小 于 或 等 于 被 除 
数 ， 所 以 在 商 中 生成 一 位 1 ( 步 
又 2a)。 如 果 结 果 为 负 ， 则 下 一 步 
是 通过 将 除数 加 回 余数 来 恢复 原 
始 值 ， 并 在 商 中 生成 一 位 0 ( 步 又 
2b)。 除 数 右 移 ， 然 后 再 次 迭代 。 
在 迭代 完成 后 ， 余 数 和 商 将 存放 
在 其 同名 的 寄存 器 中 。 









图 3-8 除法 器 硬件 结构 第 一 版 。 除 数 寄存 器 、ALU 和 余 
数 寄存 器 都 是 128 位 宽 ， 只 有 商 寄存 器 是 64 位 宽 。 
64 位 的 除数 开始 位 于 除数 寄存 器 的 左 半 部 分 且 每 次 
迭代 右 移 1 位 。 余 数 被 初始 化 为 被 除数 。 控 制 逻辑 
决定 除数 和 商 寄存 器 何 时 移 位 ， 以 及 何 时 将 新 值 写 
人 余数 寄存 器 






2b. 通过 把 除数 寄存 器 加 到 余数 寄 
存 器 并 将 和 放 入 余数 寄存 器 恢 
复原 始 数值 。 同样 左 移 商 寄存 
器 ， 将 新 的 最 低位 设置 为 0 


图 3-9 使 用 图 3-8 中 硬件 结构 的 除法 算法 。 如 果 余 数 为 正 ， 则 从 被 除数 中 减 去 除数 ， 因 此 
步骤 2a 产生 商 中 的 一 位 1。 步骤 1 后 余数 为 负 意 味 着 不 将 除数 从 被 除数 中 减 去 ， 所 
以 步骤 2b 产生 商 中 的 一 位 0， 并 把 除数 加 到 余数 上 ， 即 为 步骤 1 的 逆 操 作 。 在 步 又 
3 中 ， 最 后 一 次 移 位 根据 下 一 次 迭代 的 被 除数 将 除数 适当 对 齐 。 这 些 步 骤 重 复 65 次 
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| 例题 | 除法 算法 * 
为 节省 篇 幅 ， 算 法 使 用 4 位 的 版 本 ， 尝 试用 7io 除 以 2o， 即 00000111; 除 以 0010,。 

| 答案 | 图 3-10 展示 了 每 个 步骤 中 各 个 寄存 器 的 值 ， 最 后 商 为 3o， 余 数 为 lo。 注 意 ， 在 步 

又 2 中 检测 余数 的 正 负 时 ， 仅 简单 检查 余数 寄存 器 的 符号 位 是 0 还 是 1 即 可 。 这 种 算法 令 人 

惊讶 之 处 在 于 需要 x+1 个 步骤 才能 得 到 正确 的 商 和 余数 。 


Ca 
| 0 II 妈 秆 | 0000 | 00100000 | oooootl 
| 1 : 余数 = 余数 -除数 | 0000 | 00100000 | Qi100111 | 
出 2b: 余数 <0 =>+ 除 数 ， 左 移 商 ， 商 的 第 0 位 =0 0000 0111 
3: 有 移 除数 | 0000 | 00010000 | 00000114 | 
1 : 余数 = 余数 -除数 | 0000 | 00010000 | @hilolll | 
2b: 余数 <0 =>+ 除 数 ， 左 移 商 ， 商 的 第 0 位 =0 
3: 有 移 除数 | 0000 | 00001000 | 00000114 | 
| 1 : 余数 = 余数 -除数 | 0000 | 00001000 | Qi1111 | 


2b: 余数 <0 =>+ 除 数 ， 左 移 商 ， 商 的 第 0 位 =0 0000 1000 | 00000111 

























3 :可 和 除 


图 3-10 使 用 图 3-9 中 算法 的 除法 示例 。 用 灰色 圈 出 的 位 用 于 检测 以 决定 下 一 步骤 








-各 


这 个 算法 及 其 硬件 结构 可 以 被 改进 得 更 快 且 更 便宜 。 通 过 操作 数 移 位 和 商 与 减法 同时 
进行 来 加 速 。 该 细 化 包括 注意 哪里 有 未 使 用 的 寄存 器 和 将 加 法 器 和 寄存 器 宽度 减 半 。 图 3-11 
展示 了 修改 后 的 硬件 。 











图 3-11 改进 版 本 的 除法 硬件 。 除 数 寄存 器 、ALU 和 商 寄存 器 都 是 64 位 宽 。 和 图 3-8 相 比 ， 
ALU 和 除数 寄存 器 位 宽 减 半 且 余数 被 左 移 。 这 个 版 本 把 商 寄存 器 和 余数 寄存 器 的 
右 半 部 分 拼接 在 了 一 起 。 如 图 3-5 所 示 ， 余 数 寄存 器 增加 到 了 129 位 以 确保 加 法 器 
进位 不 会 被 丢失 
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3.4.2 ”有 符号 除法 


到 目前 为 止 ,我 们 忽略 了 有 符号 数 的 除法 。 最 简单 的 解决 办 法 是 记 住 除数 和 被 除数 的 符 
号 ， 如 果 符 号 相 异 ， 则 商 为 负 。 
| 说 缅 羡 述 ;有 符号 除法 之 所 以 复杂 的 原因 之 一 是 必须 设置 余数 部 分 的 符号 。 记 住 以 下 等 

式 必须 始终 保持 : 

被 除数 = 商 x 除数 + 余数 
要 理解 如 何 设置 余数 的 符号 ， 我 们 来 看 看 土 7io 除 以 土 210 的 所 有 组 合 的 示例 。 第 一 种 情况 很 
简单 

+7 二 +2: 商 =+3,+ 余 数 =+1 


+7= 3X2+(+] )=6+1 
如 果 改 变 被 除数 的 符号 ， 商 也 一 定 会 随 之 改变 : 


-7=+2: 商 =-3 
重 写 基本 公式 来 计算 余数 : 
余数 = (被 除数 一 商 X 除数 ) = -7-(-3xXx+2 )= -7-(-6)= 1 
因此 ， 
= 二 
再 次 检查 结果 : 


=-3X2t(1)s -06-1 
答案 不 是 商 为 -4 以 及 余数 为 +1 (这 也 适应 于 这 个 公式 ) 的 原因 是 商 的 绝对 值 会 根据 被 除数 
和 除数 的 符号 而 改变 ! 显然 ， 如 果 

(x=y) (RX) 

编程 将 面临 一 个 更 大 的 挑战 。 这 种 异常 情况 通过 让 被 除数 和 余数 保持 相同 符号 来 避免 ， 而 不 
管 除数 和 商 的 符号 如 何 。 
通过 遵循 相同 规则 来 计算 其 他 组 合 : 

+7 二 2: 商 =-=-3， 余 数 =+l 

-1 
因此 ， 如 果 源 操作 数 的 符号 相反 ， 那 么 正确 的 有 符号 除法 算法 的 商 为 负 ， 并 让 非 零 余 数 的 符 
号 与 被 除数 的 符号 相 匹 配 。 


3.4.3 快速 除法 


麻 东 定律 适用 于 除法 硬件 以 及 乘法 运算 ， 所 以 希望 能 够 通过 其 硬件 来 加 速 除法 。 通 过 使 
用 许多 加 法 器 来 加 速 乘法 ， 但 不 能 对 除法 使 用 相同 的 方法 。 因 为 在 执行 下 一 步 运 算 之 前 , 需 
要 先知 道 减法 结果 的 符号 ， 而 乘法 运算 可 以 立即 计算 64 个 部 分 积 。 

有 些 技术 每 步 可 以 产生 多 于 一 位 的 商 。SRT 除法 技术 试图 根据 被 除数 和 余数 的 高 位 来 查 
找 表 ， 以 里 测 每 步 的 多 个 商 的 位 数 。 它 依靠 后 续 步 又 纠正 错误 预测 。 今 天 的 典型 值 是 4 位 。 
关键 在 于 猜测 要 减 去 的 值 。 对 于 二 进 制 除法 ， 只 有 一 个 选择 。 这 些 算法 使 用 余数 的 6 位 和 除 
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数 的 4 位 来 索引 查找 表 ， 以 确定 每 个 步 又 的 猜测 。 

这 种 快速 方法 的 准确 性 取决 于 查找 表 中 的 值 是 否 合 适 。3.8 节 中 的 诸 误 展示 了 如 果 表 不 
正确 将 会 发 生 什 么 情况 。 
3.4.4 ”RISC-V 中 的 除法 

你 可 能 已 经 观察 到 图 3-5 和 图 3-11 中 的 乘法 和 除法 都 可 以 使 用 相同 的 顺序 执行 硬件 。 唯 
一 需要 的 是 一 个 可 以 左右 移 位 的 128 位 寄存 器 和 一 个 实现 加 法 或 减法 的 64 位 ALU。 


为 了 处 理 有 符号 整数 和 无 符号 整数 ,RISC-V 有 两 条 除法 指令 和 两 条 余数 指令 : 除 (div)， 
无 符号 除 (divu),， 余数 (rem) 和 无 符号 余数 (remu)。 


3.4.5 总 结 
支持 乘法 和 除法 的 通用 硬件 允许 RISC-V 提供 一 个 单独 用 于 乘法 和 除法 的 64 位 寄存 器 。 
通过 预测 多 位 商 再 纠正 错误 的 预测 方法 来 加 速 除法 。 图 3-12 总 结 了 前 面 两 节 RISC-V 体系 结 
构 的 优化 处 理 。 
RISC-V 汇 编 语言 
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add X5 ，X6，X7 x5 = x6 + x7 三 寄存 器 操作 数 

并 Sub :x5,, XB, XZ x5 = x6 - x7 三 寄存 器 操作 数 

立即 数 加 addi x5，x6，20 x5 = x6 + 20 用 于 加 常数 

小 于 置 位 | RE Xb = 1 TF XS 3 6 SlsE 三 寄存 器 操作 数 

小 于 置 位 ( 无 符号 数 ) sltu x5, x6, x7 x5 = 1] if x5 《< x6，else 0 | 三 寄存 器 操作 数 

小 于 置 位 ( 立即 数 ) I x5 = 1 if x5 《< x6，else 0 | 与 立即 数 比较 

小 于 置 位 ( 无 符号 立即 数 ) | sitiu x5，x6，x7 x5= 1 if x5 < x6, else 0 与 立即 数 比 较 
算术 运算 | 乘 mu] x5, x6, x7 x5 = x6 Xx Xx7 128 位 乘积 的 低 64 位 

高 位 乘 mulh x5, x6, x7 x5 = (x6 x x7) >> 64 128 位 有 符号 乘积 的 高 64 位 

高 位 乘 ( 无 符号 数 ) mulhu x5, x6, x7 |x5 = (x6 x x7) >> 64 128 位 无 符号 乘积 的 高 64 位 

高 位 乘 ( 有 -无 符号 数 ) mulhsu x5, x6, x7 |x5 = (x6 x x7) >> 64 128 位 有 -无 符号 乘积 的 高 64 位 

除 di X65 KE, KT x5 = x6 / x7 除 有 符号 64 位 数字 

无 符号 除 divt Xx5, X6, X7 x5 = x6 / x7 除 无 符号 64 位 数字 

取 余 PE 5 XG x5 = X6 % xX7 对 有 符号 64 位 除法 取 余 

无 符号 取 余 remu x5, x6, x7 x5 = x6 % x7 对 无 符号 64 位 除法 取 余 

取 双 字 d x5，40(x6) x5 = Memory[x6 + 40 从 存储 器 取 双 字 到 寄存 器 

| 存 双 字 sd x5，40(x6) Memory[x6 + 40] = x5 从 寄存 器 存 双 字 到 存储 器 

取 字 Ww x5, 40(x6) x5 = Memory[x6 + 40 从 存储 器 取 字 到 寄存 器 

取 字 ( 无 符号 数 ) Wu x5，40(x6) x5 = Memory[x6 + 40 从 存储 器 取 无 符号 字 到 寄存 器 

存 字 sw x5, 40(x6) Memory[x6 + 40] = x5 从 寄存 器 存 字 到 存储 器 

取 半 字 h x5, 40(x6) x5 = Memory[x6 + 40 从 存储 器 取 半 字 到 寄存 器 
数据 传输 取 半 字 ( 无 符号 数 ) hu x5, 40(x6) x5 = Memory[x6 + 40 从 存储 器 取 无 符号 半 字 到 寄存 器 

存 半 字 sh x5, 40(x6) Memory[x6 + 40] = x5 从 寄存 器 存 半 字 到 存储 器 

取 字 节 b x5，40(x6) x5 = Memory[x6 + 40 从 存储 器 取 字 节 到 寄存 器 

取 字 节 ( 无 符号 数 ) bu x5, 40(x6) x5 = Memory[x6 + 40 从 存储 器 取 无 符号 字 节 到 寄存 器 

存 字 节 sb x5, 40(x6) Memory[x6 + 40] = x5 从 寄存 器 存 字 节 到 存储 器 

取保 留 字 .dd 5 人 的 x5 = Memory[x6] 取 ; 原子 交换 的 前 半 部 分 

存 条 件 字 sc.d x7，x5，(x6) | Memory[x6] = x5; x7 = 0/1 | 存 ; 原子 交换 的 后 半 部 分 

取 立 即 数 高 位 ui x5, Ox12345 x5 = 0x12345000 取 左 移 12 位 后 的 20 位 立即 数 

加 立即 数 高 位 到 PC auipc x5, Ox12345 |x5 = PC + 0x12345000 用 作 程序 计数 器 相对 寻 址 

与 and x5, x6, x7 |x5 = x6 & x7 三 寄存 器 操作 数 ; 按 位 与 

或 GF XH 寺 x5 = x6 | x8 三 寄存 器 操作 数 ; 按 位 或 
逻辑 运算 异 或 xor Xx5, x6, x9 x5 = x6 ^ x9 三 寄存 器 操作 数 ; 按 位 异 或 

与 立即 数 andi x5, x6, 20 x5 = x6 & 20 寄存 器 与 常数 按 位 与 

或 立即 数 ORT XS, XE 20 x5 = x6 | 20 寄存 器 与 常数 按 位 或 

异 或 立即 数 OF] 6 20 Xx5.= X6 ~* 20 寄存 器 与 常数 按 位 异 或 





图 3-12 RISC-V 核心 指令 系统 。RISC-V 机 器 语言 列 在 本 书 的 RISC-V 参考 数据 卡 中 
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逻辑 左 移 S11 x5, x6, x7 5. = X6 < %7 按 寄存 器 给 定位 数 左 移 
逻辑 右 移 SP]1 x5; X6, x7 5 = 区 和 DD KT 按 寄 存 器 给 定位 数 右 移 
算术 右 移 sra x5, x6, x7 5 = X60 2 XF 按 寄存 器 给 定位 数 算术 右 移 
移 位 操作 。 [党 辑 左 移 立即 数 ST X57 we 3 x5 = x6 << 3 根据 立即 数 给 定位 数 左 移 
逻辑 右 移 立即 数 srli x5, x6, 3 x5 = x6 >> 3 根据 立即 数 给 定位 数 右 移 
算术 右 移 立即 数 srai Xx5, X6, 3 x5 = x6 >> 3 根据 立即 数 给 定位 数 算术 右 移 
相等 则 跳 转 beq x5, x6, 100 if (x5 == x6) go to PC+100 | 如 果 寄 存 器 比较 相等 则 发 生 PC 相 对 跳 转 
不 等 则 跳 转 bne x5, x6, 100 if (x5 != x6) go to PC+100 | 如 果 寄 存 器 比较 不 等 则 发 生 PC 相 对 跳 转 
小 于 则 跳 转 blt x5:, x6, 100 if (x5 《< x6) go to PC+100 | 如 果 寄 存 器 比较 小 于 则 发 生 PC 相 对 跳 转 
条 件 分 支 天 于 等 于 则 距 转 bge x5, x6，100 ”| if (x5 3= Xx6) go to PC+100 | 如 果 寄存 器 比较 大 于 等 于 则 发 生 PC 相对 跳 转 
| 小 于 则 跳 转 ( 无 符号 数 ) bltu x5，x6，100 |if (x5 《< x6) go to PC+100 | 如 果 寄 存 器 比较 小 于 则 发 生 PC 相 对 跳 转 
二 bgeu x5, x6, 100 if' (x5 3 x6), 6 +5 PC+100 如 果 寄存 器 比较 大 于 等 于 则 发 生 PC 相 对 跳 转 
跳 转 并 链接 jal Xl 00 Xl = CT ‘go to PC+IOO PC 相对 过 程 调 用 
| 无 条 件 跑 罗 人 jalr xl, LOO(xS) x1 = PC+4; go to x5+100 过 程 返 回 ; 间接 调用 























图 3-12 ( 续 ) 


| 硬件 /软件 接口 RISC-V 除法 指令 忽略 溢出 ， 因 此 软件 必须 判断 商 是 否 过 大 。 除 溢出 
外 ， 除 法 也 可 能 产生 不 适当 的 计算 : 除数 为 0。 一 些 计算 机 区 分 这 两 种 异常 事件 。RISC-V 软 
件 必 须 检 查 除数 是 否 为 0 以 及 是 否 溢出 。 

| 详细 阐述 | 如 果 余 数 为 负 ， 则 算法 不 会 立即 将 除数 加 回去 。 由 于 (r+d) x2-d = 
r-2+dX2-d = 7rX2+d， 它 会 在 下 一 步 中 简单 地 将 被 除数 加 到 移 位 后 的 余数 上 。 这 种 每 步 花 
费 一 个 时 钟 周 期 的 非 恢 复 (nonrestoring) 除法 算法 将 在 练习 中 进一步 探讨 ; 前面 的 算法 被 称 
为 恢复 (restoring) 除法 。 第 三 种 算法 称 作 不 执行 (nonperforming) 除法 算法 ， 即 如 果 减 法 结 
果 为 负 ， 则 不 保存 。 它 能 使 算术 操作 平均 减少 三 分 之 一 。 


3.5 浮 点 运算 
除了 有 符号 和 无 符号 整数 外 ， 编程 语言 还 支持 小 数 ， 在 数学 中 如 果 方 向 错 了 , 再 快 也 没 用 。 
被 称 作 实数 。 下 面 是 一 些 实数 的 例子 : 类 国 户 语 


3.14159265:…1o (pi) 

2.71828:…io (e) 

0.000000001io 或 1.0oX10 (以 秒 为 单位 表示 1 纳 秒 ) 

3 155 760 000io 或 3.15576ioX 10? (以 秒 为 单位 表示 1 世纪 ) 

请 注意 ， 在 最 后 的 例子 中 ， 这 个 数字 (3.15576io x 10” ) 并 不 表 
示 小 数 ， 它 比 我 们 用 32 位 有 符号 整数 所 能 表示 的 还 要 大 。 后 两 个 例 
子 中 的 第 二 种 表示 方法 称 为 科学 记 数 法 ， 该 记 数 法 在 小 数 点 左边 只 
有 一 个 数字 。 科 学 记 数 法 中 整数 部 分 没有 前 导 0 的 数字 称 为 规格 化 
数 ， 这 是 一 种 常用 的 表示 方法 。 例 如 ，1.0 x 10” 是 规格 化 的 科学 记 
数 法 表示 ， 但 是 0.11o x Ro” 和 10.010 x TO 就 不 是 。 

正如 可 以 用 科学 记 数 法 表示 十 进 制 数 一 样 ， 我 们 同样 可 以 用 其 来 表示 二 进 制 数 : 

下 

为 了 保证 二 进 制 数 的 规格 化 形式 ， 我 们 需要 一 个 基数 ， 使 得 这 个 二 进 制 数 在 移 位 后 〈 相 

当 于 增 大 或 减 小 基数 的 指数 )， 小 数 点 左 侧 必须 只 剩 一 位 非 零 数 。 只 有 以 2 为 基数 才 符 合 我 


科学 记 数 法 : 小 数 点 左边 
只 有 一 位 数字 的 表示 数 的 
方法 。 


规格 化 : 没有 前 导 0 的 浮 
点 表示 法 。 
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们 的 要 求 。 由 于 基数 不 是 10， 我 们 还 需要 一 个 新 的 小 数 点 名 称 : 二 ”| 浮 点 : 二 进 制 小 数 点 不 固 
进 制 小 数 点 。 定 的 数 的 计算 机 表示 。 

支持 这 种 数 的 计算 机 运算 称 为 浮 点 运算 ， 称 作 “ 浮 点 ”是 因为 
它 表示 二 进 制 小 数 点 不 固定 的 数字 ， 这 与 整数 表示 法 不 太 相 同 。C 语言 中 使 用 float 来 表示 这 
些 数字 。 正 如 在 科学 记 数 法 中 一 样 ， 数 被 表示 为 在 二 进 制 小 数 点 左边 只 有 一 个 非 零 数字 的 形 
式 。 在 二 进 制 中 ， 其 格式 为 : 

CO 和 和 

(尽管 在 计算 机 中 指数 部 分 和 其 余部 分 都 是 用 二 进 制 表示 的 ,但 为 了 简化 表达 ， 我 们 用 
十 进 制 来 表示 指数 。) 

利用 规格 化 形式 的 标准 科学 记 数 法 表示 实数 有 三 个 优点 : 简化 了 包含 浮 点 数 的 数据 交换 ; 
由 于 都 使 用 同一 表示 法 ， 简 化 了 浮 点 运算 算法 ; 提高 了 可 存储 在 字 中 的 数据 的 精度 ， 因 为 无 
用 的 前 导 零 占用 的 位 被 二 进 制 小 数 点 右边 的 实数 位 蔡 代 了 。 


3.5.1 浮 点 表示 


浮 点 表示 的 设计 者 必须 在 尾数 的 位 数 大 小 和 指数 的 位 数 大 小 之 | 尾数 ， 该 信 通 常 在 0 和 1 
人 Sa 
另 一 部 分 就 得 减少 一 位 。 即 要 做 精度 和 范围 之 间 的 权衡 : 增加 尾数 
位 数 的 大 小 可 以 提高 小 数 精度 ， 而 增加 指数 位 数 的 大 小 则 可 以 增加 
数 的 表示 范围 。 正 如 在 第 2 章 的 设计 原则 中 讲 的 那样 ， 好 的 设计 需 
要 好 的 权衡 。 

浮 点 数 通常 占用 多 个 字 的 长 度 。 下 图 是 RISC-V 浮 点 数 的 表示 方法 ， 其 中 s 是 浮 点 数 的 
符号 ( 1 表示 负数 )， 指 数 由 8 位 指数 字段 (包括 指数 的 符号 ) 表示 ， 尾 数 由 23 位 数 表示 。 正 
如 第 2 章 提 过 的 那样 ， 这 种 表示 称 为 符号 和 数值 ， 符 号 与 数值 的 位 是 相互 分 离 的 。 


larao[ael laol asadaslaal a] aosol sealaolslaalslaal laol sol7lels[al Tal To 
可 0 


指数 : 在 浮 点 运算 的 数值 
表示 系统 中 ， 放 置 在 指数 
字段 中 的 值 。 








指数 尾数 
1 位 8 位 23 位 
通常 来 讲 ， 浮 点 数 可 以 这 样 表示 : 
(=1) XFX2” 


F 是 尾数 字段 中 表示 的 值 ， 而 了 是 指数 字段 表示 的 值 ; 之 后 会 对 这 两 个 字段 之 间 的 确切 关系 
做 详细 说 明 。( 我 们 很 快 就 会 看 到 稍微 复杂 一 点 的 RISC-V。) 

这 些 指定 的 指数 和 尾数 位 长 使 RISC-V 计算 机 具有 很 大 的 运算 范围 。 小 到 2.0ox 10™， 
大 到 2.0ox 10*， 计算机 都 能 表示 出 来 。 但 是 它 和 无 穷 大 不 同 ， 所 以 仍然 可 能 存在 数 太 大 而 
表示 不 出 来 的 情况 。 因 此 ， 和 整 点 运算 一 样 ， 浮 点 运算 中 也 会 发 生 溢出 中 断 。 注 意 这 里 的 溢 
出 表示 因 指 数 太 大 而 无 法 在 指数 字段 中 表示 出 来 。 

浮 点 运算 还 会 导致 出 现 一 种 新 的 例外 情况 。 正 如 程序 员 想 知道 
他 们 什么 时 候 计 算 了 一 个 难以 表示 的 太 大 的 数 一 样 ， 他 们 还 想 知道 
他 们 正在 计算 的 非 零 小 数 是 否 变 得 小 到 无 法 表示 ; 这 两 个 事件 都 可 
能 导致 程序 给 出 不 正确 的 答案 。 为 了 和 上 洲 区 分 开 来 我 们 把 这 种 | 下 溢 : 负 指 数 坟 大 而 无 法 
情况 称 为 下 溢 。 当 负 指 数 太 大 而 指数 字段 无 法 表示 时 ， 就 会 出 现 这 的 peer 


上 洲 : 正 指 数 太 大 而 无 法 
用 指数 字段 表示 的 情况 
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种 情况 。 

减少 下 溢 或 上 溢 发 生 概 率 的 一 种 方法 是 提供 男 一 种 具有 更 大 指 | 双 精 度 : 以 64 位 双 字 表 
数 范围 的 格式 。 在 C 语言 中 ， 这 个 数据 类 型 称 为 双 精 度 ( double)， rs 
基于 双 精 度 的 运算 称 为 双 精 度 浮 点 运算 ， 而 单 精 度 浮 点 就 是 前 面 介 
绍 的 格式 。 

双 精 度 浮 点 数 需要 一 个 RISC-V 双 字 才能 表示 ， 如 下 所 示 ， 其 
中 s 仍然 是 数 的 符号 位 ， 指 数字 段 为 11 位 ， 尾 数字 段 为 52 位 。 


单 精 度 : 以 32 位 字 表 示 
的 浮 点 值 。 





3|62|ea| eol se| sa|s7| 56| 55| 54| 53|52| 54| 5o| 4e| 48|47|46|45| 44|43|42|43| 4o| 39| 38| 37| 36|35|34|33|32 





| 必 数 
1 位 11 位 20 位 






ai|aolze|zs|27|2ejzs| 4| 2a|22|2|2olielislizlaelas|4|1alizlialiol 9| |7|els|4ls|2l1lo 

OO 是 
32 位 

RISC-V 双 精 度 可 以 表示 的 实数 范围 小 到 2.0ox 10 六， 大 到 2.0ox 10”。 尽 管 双 精度 确实 

增加 了 指数 字段 能 表示 的 范围 ， 但 其 最 主要 的 优点 是 由 于 有 更 大 的 有 效 位 数 而 具有 更 高 的 精度 。 


3.5.2 ”例外 和 中 断 


在 上 溢 或 下 溢 时 应 该 让 计算 机 发 生 什么 以 让 用 户 知道 出 现 了 问 
题 ?》 有些 计算 机 会 通过 引发 例外 (有 时 也 称 作 中 断 ) 来 告知 问题 的 
出 现 。 例 外 或 中 断 在 本 质 上 是 一 种 非 预期 的 过 程 调用 。 造 成 溢出 的 
指令 的 地 址 保存 在 寄存 器 中 ， 并 且 计 算 机 会 跳 转 到 预定 义 的 地 址 以 
调用 相应 的 例外 处 理 程序 。 中 断 的 地 址 被 保存 下 来 ， 以 便 在 某 些 情 
况 下 可 以 在 执行 纠正 代码 之 后 继续 执行 原 程 序 。( 4.9 节 介 绍 了 有 关 
例外 的 更 多 细节 ; 第 5 章 描 述 了 例外 异常 和 中 断 发 生 的 其 他 情况 )。 
RISC-V 计算 机 不 会 在 上 溢 或 下 溢 时 引发 例外 ， 不过， 软件 可 以 读 取 浮 点 控制 和 状态 寄存 器 
(fesr) 来 检测 是 否 发 生 上 浇 或 下 溢 。 





例外 : 也 称 为 中 断 。 打 扰 
程序 执行 的 意外 事件 ; 用 
于 检测 溢出 。 





中 断 : 来 自 处 理 器 之 外 的 
例外 (有 些 体 系 结构 用 术 
语 中 断 表 示 所 有 的 例外 )。 





3.5.3 IEEE 754 浮 点 数 标 准 


这 些 格式 并 非 RISC-V 所 独 有 。 它 们 是 IEEE 754 浮 点 数 标准 的 一 部 分 ，1980 年 以 后 的 
几乎 所 有 计算 机 都 遵循 该 标准 。 该 标准 极 大 地 提高 了 移植 浮 点 程序 的 简易 程度 和 计算 机 的 运 
算 质 量 。 

为 了 将 更 多 的 位 打包 到 数 中 ，IEEE 754 让 规格 化 二 进 制 数 的 前 导 位 1 是 隐 含 的 。 因 此 ， 
在 单 精 度 下 ， 该 数 实 际 上 是 24 位 长 ( 隐 含 1 和 23 位 尾数 )， 在 双 精 度 下 则 为 53 位 长 (1+ 
52 )。 为 了 更 精确 ， 我们 使 用 术语 有 效 位 数 来 表示 隐 含 的 1 加 上 尾数 ， 当 尾数 是 23 或 52 位 
数 时 ， 有 效 位 数 是 24 或 53 位。 由 于 0 没有 前 导 1， 因 此 它 被 赋予 保留 的 阶 码 0， 以 便 硬 件 
不 会 给 它 附 加 一 个 前 导 位 1。 

因此 00...00; 代表 0， 其 他 的 数 就 是 用 前 面 的 形式 ， 加 上 隐 含 的 1: 

(-1)Sx (1+ 尾数) x2 
其 中 ， 尾 数位 表示 大 小 在 0 到 1 之 间 的 小 数 ，E 表示 指数 字段 的 值 ， 稍 后 将 对 这 部 分 做 详细 
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分 析 。 如 果 将 尾数 的 各 位 从 左 到 右 依次 用 s1，s2，s3 ，… 来 表示 的 话 ， 则 数 的 值 为 : 
(—1)s x (1+(s1X2-)+(sS2X2?)+(S3X23)+(S4X24)+…) Xx2° 
图 3-13 展示 了 IEEE 754 浮 点 数 的 编码 。IEEE 754 的 其 他 特征 是 用 特殊 符号 来 表示 异常 
事件 。 例 如 ， 软 件 可 以 将 结果 设置 为 代表 + % 或 - om 的 位 模式 ， 而 不 是 除 零 中 断 。 最 大 的 指 
数 是 为 这 些 特殊 符号 保留 的 。 当 程序 员 打 印 结果 时 ， 程 序 将 输出 一 个 无 穷 大 的 符号 。( 对 于 
有 数学 训练 经 验 的 人 来 说 ， 无 穷 的 目的 是 形成 实数 的 拓扑 闭 集 。) 


指数 慌 | 


0 








非 0 


正 负 非 规格 化 数 


0 
1~254 任意 数 正 负 浮 点 数 


正 负 无 穷 
| NaN( 砷 数 ) | 
图 3-13 IEEE 754 对 浮 点 数 的 编码 。 一 个 单独 的 符号 位 决定 了 符号 。 非 规格 化 数 在 3.5.8 节 的 
“详细 阐述 ”中 描述 。 这 些 信息 也 可 以 在 本 书 RISC-V 参考 数据 卡 的 第 4 列 中 找到 


IEEE 754 甚至 还 有 表示 无 效 运 算 结果 的 符号 ， 例 如 0/0 或 无 穷 减 去 无 穷 。 这 个 符号 是 
NaN ， 表 示 不 是 一 个 数 。 符 号 NaN 的 目的 是 让 程序 员 可 以 推迟 程序 中 的 一 些 测 试 和 决定 ， 等 
到 方便 的 时 候 再 进行 。 

IEEE 754 的 设计 者 也 考虑 到 ， 对 于 浮 点 表示 ， 尤 其 是 进行 排序 操作 时 ， 最 好 能 直接 利 
用 已 有 的 整数 比较 硬件 来 处 理 。 这 就 是 符号 位 处 于 最 高 位 的 原因 ， 这 样 一 来 就 可 以 快速 判定 
是 小 于 0、 大 于 0、 还 是 等 于 0。( 这 比 简单 的 整数 排序 稍微 复杂 一 点 ， 因 为 这 个 记 数 法 本 质 
上 是 符号 和 数值 的 形式 9 而 不 是 用 2 的 补 码 表 示 。) 

把 指数 字段 放 在 有 效 位 之 前 也 简化 了 利用 整数 比较 指令 对 浮 点 数 的 排序 。 因 为 只 要 两 个 
数 的 指数 部 分 符号 相同 ， 那 么 具有 更 大 指数 的 数 就 一 定 更 大 。 

负 指 数 对 简化 排序 提出 了 挑战 。 如 果 我 们 使 用 2 的 补 码 或 其 他 指数 为 负数 时 指数 字段 的 
最 高 有 效 位 为 1 的 表示 法 ， 负 指数 反而 会 显得 比较 大 。 例 如 ，1.0: x 2 以 单 精度 表示 为 : 


3+|a0|29 |2s [27 [2e[2s[24|2s|22|2s [20lsslselsr [selsslsalssls2lsslsol sl7 lelslalsl2lslo 


[| 和 和 ood on v0 od io oo v0.0 0 Do 
(注意 前 导 1 隐 含 在 有 效 位 中 。) 以 上 面 方法 表示 的 1.0, x 2” 看 起 来 倒 像 更 小 的 二 进 制 数 
31|s0|29|28|27 [26|2s|24|23|22|21 |20lse|18|17 selsslsalslszlislsol os [el7lelslslsl2lilo 








































olio bd oj 0 wo, ulo to G0 0 oo ol0 oo .00 0 do 0 dd 0 0 


因此 ， 最 理想 的 表示 法 是 将 最 小 的 负 指 数 表示 为 00...00,， 并 将 最 大 的 正 指 数 表示 为 
11...112。 这 种 表示 法 称 作 移 码 表示 法 。 从 移 码 表示 的 数 减 去 原 数 就 可 以 得 到 相应 的 偏 移 值 ， 
从 而 由 无 符号 的 移 码 可 得 到 真实 的 值 。 

IEEE 754 规定 单 精度 的 偏 移 值 为 127， 因 此 指数 为 -1 表示 为 -1 + 127o， 即 12610= 
01111110;,，+1 表示 为 1 + 127.。， 即 128io= 10000000,。 双 精度 的 指数 偏 移 值 为 1023。 带 偏 


日 原 码 。 一 一 译 者 注 
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移 值 的 指数 意味 着 一 个 由 浮 点 数 表示 的 值 实际 上 是 : 

| bh x ( [水 有 效 位 数 ) X 2 (指数 一 偏 移 值 ) 
单 精 度数 的 表示 的 范围 从 : 

土 1. 00000000000000000000000, x 271* 
到 

开光 
让 我 们 演示 一 下 浮 点 表示 。 
| 例题 | = 

用 二 进 制 的 形式 ， 分 别 用 IEEE 754 的 单 精度 格式 和 双 精 度 格式 表示 浮 点 数 一 0.7510。 

| 答案 | -0.75i 又 可 以 表示 为 : 





一 3/410o， 即 一 3/2?10 
用 二 进 制 小 数 又 可 以 表示 为 : 
一 112/2*.0o， 即 -0.11， 

用 科学 记 数 法 表示 为 : 

-0.1ls 区 2 
用 规格 化 的 科学 记 数 法 表示 为 : 

= 站 其 过 
单 精 度数 通常 表示 为 : 

(= )S ( LE 有 效 位 数 ) x2 (指数 一 127 ) 
从 一 1.1; x 2” 的 指数 部 分 减 去 127 可 得 : 
(-1)3x (1+0.1000 0000 0000 0000 0000 000, ) x 2 7226 2527) 

因此 -0.751w 的 单 精度 二 进 制 表示 为 : 


34|ao|2s|28|?7|2e|25|2e|3|22|2a2ol1ejaslazlaelslejaalazlaaltols|s|7|e|s|4|s|2|i|o 
了 | 下 06 


1 位 8 位 23 位 


双 精 度 表示 为 : 
(-1)' x(1+0.1000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000, ) x2 92 03 ) 


[31|30|29|28 [27 [26|25 24|23|22|21|20|19|18|17|16|15|14|13|12|11|10|9|18|7|6 slals[2[1|ol 
加 


1 位 11 位 20 位 


@ 0 


32 位 











下 面 我 们 看 一 个 反 向 的 例子 。 
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| 例题 | 将 二 进 制 浮 点 数 转换 为 十 进 制 浮 点 数 。 
这 个 单 精 度 浮 点 数 表示 的 十 进 制 数 是 多 少 ? 
[1|a0|29 |28|27|26|2s|24|23|22|21 |20|19 11s]a7 [a6lsslalssls2lsrliol 9|s|7lelslslsl2lilo 
| 答案 | 符号 位 为 1， 指数 字段 为 129， 尾 数字 段 为 1x2“=1/4， 即 0.25。 使 用 基本 公式 : 
| 站 x ( ] 秆 有 效 位 数 ) x 2 (指数 一 偏 移 值 ) 二 ( _] )1X 1 1+0.25 x 2 (129-127) 
三 二 1 六 下 23 尖 2 














=~—125xX4 
=—5.0 





在 接 下 来 的 几 小 节 中 ， 我 们 将 给 出 用 于 浮 点 加 法 和 乘法 的 算法 。 它 们 的 核心 是 对 有 效 数 
位 部 分 使 用 相应 的 整数 运算 ,但 需要 额外 的 工作 来 处 理 指数 和 对 结果 进行 规格 化 处 理 。 我 们 
首先 给 出 一 个 十 进 制 算法 的 直观 推导 ， 然 后 给 出 更 详细 的 二 进 制版 本 ， 并 给 出 相应 图 示 。 

[详细 阐述 | 遵循 IEEE 指导 原则 ，IEEE 754 委员 会 在 标准 制定 20 年 后 进行 了 改革 ， 以 
查看 应 该 制定 哪些 更 改 (如果 有 的 话 )。 修 订 后 的 标准 IEEE 754-2008 几乎 包含 IEEE 754- 
1985 标准 的 所 有 内 容 ， 并 增加 了 16 位 格式 (“ 半 精度 ”) 和 128 位 格式 (“四 精度 ”)。 修 订 
后 的 标准 还 增加 了 十 进 制 浮 点 运算 。 

锯 细 阐 衣 为 了 在 保留 有 效 位 的 情况 下 增加 表示 范围 ，IEEE 754 标准 之 前 的 一 些 计算 
机 使 用 的 基数 不 是 2。 例 如 ，IBM 360 和 370 大 型 计算 机 使 用 的 是 基数 16。 由 于 将 IBM 指 
数 改 变 1 相当 于 将 有 效 数 位 移动 4 位 ， 所 以 基数 为 16 的 规格 化 数 的 前 导 0 多 达 3 个! 因此， 
这 种 十 六 进 制 数 的 表示 方法 意味 着 必须 从 有 效 位 数 中 删除 3 位 ， 这 会 对 浮 点 运算 的 精度 带 来 
很 大 影响 。 最 近 的 IBM 大 型 机 不 仅 支 持 早期 的 十 六 进 制 格式 ， 还 支持 IEEE 754 标准 。 


3.5.4 浮 点 加 法 


让 我 们 用 科学 记 数 法 表示 的 数 的 手 算 加 法 来 说 明 一 下 浮 点 数 的 加 法 : 9.999iox 10 + 
1.6101。x 10 ” 。 假 设 有 效 数 位 中 只 能 保存 4 位 十 进 制 数字 ， 而 指数 字段 只 能 保存 两 位 十 进 制 
数字 。 

第 一 步 : 为 了 能 够 对 这 些 数 做 出 正确 的 加 法 运算 ， 我 们 必须 将 指数 较 小 的 数 的 小 数 点 和 
指数 较 大 的 数 的 小 数 点 对 齐 。 因 此 ， 我 们 需要 处 理 指数 较 小 的 数 ， 即 1.6101o x 10 ， 让 它 与 
具有 较 大 的 指数 的 数 的 指数 相同 。 我 们 发 现 一 个 非 规格 化 的 浮 点 数 可 以 有 多 种 科学 记 数 法 的 
表示 形式 ， 从 而 可 以 利用 该 特性 完成 指数 对 齐 ， 即 : 

1.610iox 10-= 0.1610iox10" = 0.01610 x 10! 
最 右边 的 数 是 我 们 想 要 的 版 本 ， 因 为 它 的 指数 与 较 大 数字 的 指数 相等 ， 即 9.999ox 10  。 因 
此 ， 第 一 步 将 较 小 数 的 有 效 数位 进行 右 移 ， 直 到 它 的 指数 变 得 和 较 大 数 的 指数 一 样 。 但 是 我 
们 只 能 表示 四 位 十 进 制 数 ， 所 以 在 移 位 之 后 的 数 是 : 
0.016io X 10: 
第 二 步 : 将 两 个 数 的 有 效 数位 相 加 : 


夺 灌 机 的 第 大 运算 139 











9.99910 
+ 0.01610 
10.0151o 





和 为 10.01$io x 10'。 
第 三 步 : 这 个 和 没有 用 规格 化 的 科学 记 数 法 表示 ， 因 此 要 调整 为 : 
10:0151 X 10' = 1.0015r 区 了 
因此 ， 在 加 法 之 后 ,我们 必须 对 和 进行 移 位 ， 适 当地 调整 指数 大 小 ， 把 它 变 为 规格 化 的 形 
式 。 这 个 例子 展示 了 将 和 右 移 一 位 的 情况 ,但 是 如 果 一 个 数 是 正 数 而 男 一 个 数 是 负数 ， 那 么 
得 到 的 和 可 能 有 许多 前 导 0， 这 时 需要 进行 左 移 操作 。 每 当 指数 增 大 或 减 小 时 ， 我 们 都 必须 
检测 上 溢 或 下 洲 一 一 也 就 是 说 ， 我 们 必须 确保 指数 大 小 没有 超过 指数 字段 的 表示 范围 。 

第 四 步 : 由 于 我 们 假定 有 效 位 数 可 能 只 有 四 位 (不 包括 符号 位 )， 所 以 我 们 必须 对 最 后 结 
果 进 行 舍 人 。 在 小 学 学 过 的 算法 中 ， 如 果 右 边 多 余 的 数 在 0 和 4 之 间 ， 则 直接 舍 去 ， 如 果 右 
边 的 数 在 5 和 9 之 间 ， 则 舍 去 后 前 一 位 加 1。 前 面 所 得 的 和 为 : 

1.001510 X 10? 
因为 小 数 点 右边 的 第 四 位 数字 在 5 到 9 之 间 ， 所 以 舍 人 到 四 位 有 效 数 位 的 结果 是 : 

1:00210 X10* 
请 注意 ， 如 果 我 们 在 舍 入 的 时 候 运 气 不 好 ,例如 遇 到 前 面 各 位 都 是 9 的 情况 ,那么 加 上 1 的 
和 仍 不 是 规格 化 的 ， 需 要 再 次 执行 第 三 步 。 

图 3-14 显示 了 遵循 该 十 进 制 加 法 示例 的 二 进 制 浮 点 加 法 的 算法 。 第 一 步 和 第 二 步 与 刚 
刚 讨论 的 示例 类 似 : 调整 指数 较 小 的 数 的 有 效 数 位 ， 让 它 和 另 一 个 较 大 数 的 小 数 点 对 齐 ， 然 
后 加 上 两 个 数 的 有 效 数 位 。 第 三 步 对 结果 进行 规格 化 ， 并 强制 检测 上 溢 或 下 溢 。 第 三 步 中 的 
上 溢 和 下 淤 检测 取 决 于 操作 数 的 精度 。 回 想 一 下 ， 指 数 中 全 为 0 的 表示 被 保留 并 用 于 0 的 浮 
点 表示 。 而 且 ， 指 数 中 全 为 1 的 表示 仅 用 于 标识 指定 的 值 和 超出 正常 浮 点 数 范围 之 外 的 情况 
(请 参考 3.5.8 节 的 “详细 阐述 ”)。 对 于 以 下 示例 ， 请 记 住 ， 对 于 单 精 度 ， 最 大 指数 为 127， 
最 小 指数 为 -126。 


| 例题 | 二进制 浮 点 加 法 a 
按照 图 3-14 的 算法 ， 尝 试 将 0.51。 和 一 0.43751 用 二 进 制 相 加 。 

| 答案 | 让 我 们 首先 看 一 下 这 两 个 数 用 规格 化 的 科学 记 数 法 的 二 进 制 表示 ,假设 保持 4 位 

精度 : 








0.3i0 1/210 ho 

= 1s 0 =1000 KF 
—0.437510 = 一 7/16i10 —7/2410 

=—0.0111; =—0.01ll12X2” =-1.110,x27 


现在 我 们 按照 如 下 的 算法 执行 。 
第 一 步 : 将 指数 较 小 的 数 (-1.11: x 2”) 的 有 效 数位 右 移 ， 直 到 其 指数 与 较 大 的 数 相 同 : 
—1.110,X2 ?= -0.111; X 27 
第 二 步 : 将 有 效 数 位 相 加 : 
1.0002Xx2-1+(-0.1112x2- ) =0.001; X27 
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第 三 步 : 对 和 进行 规格 化 ， 并 检测 上 洪 和 下 溢 : 
0.001ax2 "=0.010;Xx2™*=0.100;X27 
= 1.000, X27 
由 于 127 > -4 > -126, 没有 上 溢 或 下 洲 。( 带 偏 移 值 的 指数 为 -4+127， 即 123， 它 在 最 小 
py 
第 四 步 : 对 和 进行 舍 入 : 
1.000, X24 
和 已 经 完全 符合 4 位 精度 ， 所 以 无 须 再 做 伟人 。 
所 以 和 是 
1.000; Xx 2”= 0.0001000: = 0.0001; 
= 1/24o = 1/161w = 0.0625io 








这 就 是 0.5 和 -0.4375io 的 和 。 


许多 计算 机 用 专门 硬件 来 尽 可 能 快 地 运行 浮 点 运算 。 图 3-15 描绘 了 浮 点 加 法 硬件 的 基 
本 结构 。 





图 3-14 浮 点 加 法 。 正 常 步骤 是 步骤 3 和 4 执行 一 次 即 可 ,但 如 果 舍 入 未 规格 化 的 和 ， 我 们 
必须 重复 步骤 3 
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比较 部 件 
(0 1) 
将 较 小 的 数 右 移 
右 移 
加 
规格 化 
合 入 











| 符 S 位 | 指数 | 必 数 | 
图 3-15 专用 于 浮 点 加 法 的 算术 单元 结构 图 。 图 3-14 的 步 又 从 上 到 下 对 应 于 每 个 部 分 。 首 
先 ， 使 用 小 的 ALU 将 一 个 操作 数 的 指数 减 去 另 一 个 操作 数 的 指数 ， 以 确定 哪 一 个 
更 大 以 及 大 多 少 。 这 个 差 值 控制 着 三 个 多 选 器 ; 按 从 左 到 右 的 顺序 ， 选 择 较 大 的 
指数 、 较 小 加 数 的 有 效 数位 以 及 较 大 加 数 的 有 效 数位 。 较 小 加 数 的 有 效 数位 进行 
右 移 ， 然 后 使 用 大 ALU 将 两 数 的 有 效 数位 相 加 。 规 格 化 步骤 对 总 和 进行 左 移 或 右 
移 ， 并 相应 地 减少 或 增加 指数 。 含 人 产生 的 结果 ， 但 有 可 能 需要 再 次 规格 化 以 产生 


才 终 结 


3.5.5 浮 点 乘法 
现在 我 们 已 经 介绍 完了 浮 点 加 法 ， 下 面 开始 介绍 浮 点 乘法 。 我 们 从 手工 计算 以 十 进 制 科 
学 记 数 法 表示 的 浮 点 乘法 开始 : 1.1101o x 10"x 9.2001o x 105。 假 设 我 们 只 能 保存 四 位 有 效 数 
位 和 两 位 指数 字段 。 
第 一 步 : 和 加 法 不 同 ， 我 们 通过 简单 地 将 操作 数 的 指数 相 加 来 计算 积 的 指数 : 
新 的 指数 =10+(-5) =5 
让 我 们 用 移 码 来 表示 指数 并 确保 获得 相同 的 结果 : 10+ 127= 137 和 一 5+127=122， 所 以 
新 的 指数 = 137 + 122 = 259 
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这 个 结果 对 于 8 位 指数 字段 来 说 太 大 了 ， 所 以 肯定 有 些 地 方 出 错 了 ! 问题 在 于 偏 移 值 ， 因 为 
我 们 在 进行 指数 相 加 的 同时 也 进行 了 偏 移 值 相 加 : 
新 的 指数 =( 10+127 ) + (=5+127)= ( 5+2X127 ) = 259 
因此 ， 当 我 们 将 带 偏 移 值 的 数 相 加 时 ， 为 了 得 到 正确 的 带 偏 移 值 的 总 和 ， 我们 必须 从 总 
和 中 减 去 一 个 偏 移 值 : 
新 的 指数 = 137+122-127 = 259-127 = 132 = 5+127 
而 5 就 是 我 们 最 初 计算 的 指数 。 
第 二 步 : 下 面 开 始 有 效 数位 部 分 的 相 乘 : 
LO 
Xx 9.20010 
0 000 
00 00 
222 0 
9990 
102120001o 
每 个 操作 数 的 小 数 点 右 侧 有 三 位 数字 ， 因 此 乘积 的 小 数 点 应 该 放 在 从 右 数 第 6 位 有 效 位 前 : 
10.2120001o 
如 果 我 们 只 能 保留 小 数 点 右 侧 三 位 数字 ， 则 积 为 10.212 x 105。 
第 三 步 : 因为 得 到 的 乘积 是 非 规 格 化 的 ， 所 以 要 将 其 规格 化 : 
02212 10 = T0212n 0 
因此 ， 在 乘法 之 后 ， 乘 积 需要 右 移 一 位 得 到 规格 化 的 结果 ， 同 时 指数 加 1。 此 时 ， 我们 可 以 
检测 上 浇 和 下 浇 。 如 果 两 个 操作 数 都 很 小 ， 也 就 是 说 ， 如 果 两 者 都 具有 较 小 的 负 指 数 时 ， 则 
可 能 发 生 下 滋 。 
第 四 步 : 我 们 假设 有 效 数 位 只 有 四 位 数字 (不 包括 符号 位 )， 所 以 必须 将 乘积 舍 入 。 乘 积 : 
L012 1 





舍 人 到 四 位 有 效 数位 是 : 
1.021io X 108 

第 五 步 : 积 的 符号 取决 于 原始 操作 数 的 符号 。 如 果 它 们 符号 相同 ， 则 积 的 符号 为 正 ; 否 

则 ， 积 的 符号 为 负 。 因 此 ， 积 为 : 

+ 1.021io X 10° 
在 加 法 算法 中 ， 和 的 符号 是 由 有 效 位 数 相 加 的 结果 来 确定 的 ， 但 是 在 乘法 中 ， 操 作 数 的 符号 
决定 了 乘积 的 符号 。 

同 加 法 类 似 ， 如 图 3-16 所 示 ， 二 进 制 浮 点 数 的 乘法 也 与 我 们 刚刚 完成 的 十 进 制 乘法 的 
步骤 非常 相似 。 我 们 首先 要 将 两 数 的 带 偏 移 值 的 指数 相 加 并 确保 减 去 一 个 偏 移 值 ， 以 得 到 乘 
积 的 新 的 正确 指数 。 接 下 来 是 有 效 数 位 的 乘法 ， 紧 跟 的 是 可 选 的 规格 化 步骤 。 然 后 是 检查 指 
数 的 大 小 是 否 上 洲 或 下 溢 ， 再 对 积 进行 舍 信 。 如 果 舍 人 导致 需要 再 次 规格 化 ， 就 要 再 次 检查 
指数 大 小 。 最 后 ， 如 果 操 作 数 的 符号 不 同 〈 积 为 负 )， 则 将 积 的 符号 位 设置 为 1 ; 如 果 它 们 相 
同 ( 积 为 正 )， 则 将 积 的 符号 位 设置 为 0。 
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1. 将 两 数 的 移 码 相 加 ， 从 和 中 减 去 偏 
移 量 以 得 到 新 的 移 码 。 








3. 需要 的 话 ， 对 积 进 行规 格 
移 并 增加 指数 





化 ， 积 右 





5. 如果 尖 操作 数 的 符号 相同 ， 则 将 积 的 
符号 设 为 正 ， 否 则 为 负 
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图 3-16 浮 点 乘法 。 通 常 是 执行 步骤 3 和 步骤 4 各 一 次 ,但 如 果 舍 入 导致 结果 非 规 格 化 了 ， 
必须 重复 执行 步骤 3 


| 例题 | 二 进 制 浮 点 乘法 





请 按照 图 3-16 的 步骤 ， 求 出 0.510 和 一 0.43751o 的 积 。 
| 答案 


在 二 进 制 下 ， 即 是 要 将 1.000; x 2 和 -1.110, x 2 相 乘 。 
第 一 步 : 将 不 带 偏 移 值 的 指数 相 加 


或 使 用 移 码 表示 为 : 


(=1+127) + (-2+127) -127= (=1-2)+ (127+127-=127) = 三 =-3+127 = 124 


= 23 


第 二 步 : 有 效 数 位 相 乘 : 


1.000, 
x 1.110; 
0000 
1000 
1000 
1000 
1110000， 





144 。” 荔 了 草 








乘积 为 1.110000; x 2”， 但 我 们 需要 保留 4 位 有 效 数 字 ， 因 此 结果 为 1.110, x 2 。 

第 三 步 : 现在 我 们 要 检查 积 以 确保 它 是 规格 化 的 ， 然 后 检查 指数 是 否 上 溢 或 下 游 。 积 
已 经 是 规格 化 的 了 ， 并 且 因 为 127 > -3 > -126， 所 以 没有 上 溢 或 下 溢 。( 使 用 移 码 表示 法 ， 
254 > 124 > 1， 因 此 指数 大 小 合适 。) 

第 四 步 : 对 积 舍 人 ， 结 果 没 什么 影响 : 


{L052 
第 五 步 : 因为 操作 数 的 符号 相反 ， 因 此 将 积 的 符号 设 为 负 。 所 以 ， 乘 积 ; 
二 让 2 芝 人 


转化 为 十 进 制 来 检查 所 得 结果 : 
-1.110;X2”= -0.001110;: = -0.00111; 


Ts T= 7 /3210 = —0.2187510 
而 0.510 和 一 0.437516 的 乘积 正 是 -0.2187510。 s 








3.5.6 ”RISC-V 中 的 浮 点 指令 


RISC-V 支持 IEEE 754 标准 定义 的 单 精度 和 双 精 度 格 式 ， 有 以 下 这 些 指令 : 

@ 单 精度 浮 点 加 法 指令 (fadd.s) 和 双 精 度 浮 点 加 法 指令 (fadd.d) 

e@ 单 精度 浮 点 减法 指令 (fsub.s) 和 双 精 度 浮 点 减法 指令 (fsub.d) 

@ 单 精 度 浮 点 乘法 指令 (fmu1 .S) 和 双 精 度 浮 点 乘法 指令 (fmul.d) 

@ 单 精度 浮 点 除法 指令 (fdiv.s) 和 双 精 度 浮 点 除法 指令 (fdiv.d) 

@ 单 精度 浮 点 平方 根 指令 (fsqrt.s) 和 双 精 度 浮 点 平方 根 指令 (fsqrt.d) 

@ 单 精度 浮 点 相等 指令 (feq.s) 和 双 精 度 浮 点 相等 指令 (feq.d) 

e 单 精度 浮 点 小 于 指令 (f1t .s) 和 双 精 度 浮 点 小 于 指令 (f1t.d) 

e@ 单 精 度 浮 点 小 于 或 等 于 指令 (fle.s) 和 双 精 度 浮 点 小 于 或 等 于 指令 (fle.d) 

如 果 比 较 结 果 为 假 ， 比 较 指 令 feq、flt 和 fle 将 整 点 寄存 器 设 为 0， 如 果 是 真 的 ， 
则 设 为 1。 因 此 软件 可 以 使 用 整数 分 支 指令 beq 和 bne 来 比较 结果 并 进行 分 支 。 

RISC-V 的 设计 者 决定 添加 独立 的 浮 点 寄存 器 。 它 们 被 称 为 fT0，f1，…，f31。 因 此 ， 
它们 包括 独立 的 用 于 浮 点 寄存 器 的 取 存 指令 : f1d 和 fsd 用 于 双 精 度 ，flw 和 fsw 用 于 单 
精度 。 浮 点 数据 传输 指令 的 基 址 寄存 器 仍 为 整 点 寄存 器 。 从 内 存 中 取出 两 个 单 精度 数 ， 相 
加 ， 然 后 将 总 和 存 回 到 内 存 的 RISC-V 代码 如 下 所 示 : 

flw Fo, OORTOD) J iad 32-bit EPs Womber jm Fo 

flw fl; 4XLOY ZE Lo B32-Bit FB. Wumbere Tnko Ty 

faydss te, TO, 1 Wi 全 用 下 站 Simgle precisign 

fsw fa BL0Y A Sone 32-it, FP mumnser Fm fe 

单 精度 寄存 器 只 是 双 精 度 寄存 器 的 后 半 部 分 。 注 意 ， 与 整 点 寄存 器 x0 不 同 ， 浮 点 寄存 
器 f0 没有 硬 连 接 到 常数 0。 

图 3-17 总 结 了 本 章 所 涉及 的 RISC-V 体系 结构 的 浮 点 部 分 ， 支 持 浮 点 的 新 增 部 分 用 灰色 
标记 了 出 来 。 浮 点 指令 使 用 与 整 点 相同 的 指令 格式 : 载 人 指令 〈load) 使 用 I 型 格式 ， 存 储 指 
令 (store) 使 用 $ 型 格式 , 算术 指令 使 用 R 型 格式 。 
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RISC-V 浮 点 操作 数 
32 个 浮 点 寄存 器 。 | 10 一 f31 | 一 个 寄存 器 可 以 保存 一 个 单 精度 浮 点 数 或 一 个 双 精度 浮 点 数 
261 个 存储 双 字 Memory[0], Memory[8]…， 只 能 通过 数据 传输 指令 访问 。RISC-V 使 用 字 节 地 址 ， 因 此 连续 的 双 字 相 差 8。 存 储 
a Memory[18 446 744 073 709 551 608] 器 保存 数据 结构 、 数 组 和 溢出 寄存 器 的 内 容 














RISC-V 浮 点 汇编 语言 
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单 精度 浮 点 加 法 fadd.s f0, fl, = fl + f2 ( 单 精度 ) 浮 点 数 加 法 
单 精度 浮 点 减法 ey. 0. th 2 PO Py = Re ( 单 精度 ) 浮 点 数 减法 
单 精度 浮 点 乘法 机， 的 径 f0 = fi * f2 ( 单 精度 ) 浮 点 数 乘法 
单 精 度 浮 点 除法 福 视 ss 0 位 fO = 和 / #2 ( 单 精度 ) 浮 点 数 除法 
算术 单 精度 浮 点 平方 根 fsqrt,s 710, 11 f0 = Vfl1 ( 单 精度 ) 浮 点 数 平方 根 
双 精 度 浮 点 加 法 fadd.d FO, fT. f2 ft0 = FI1 + fz ( 双 精 度 ) 浮 点 数 加 法 
双 精 度 浮 点 减法 会 他 过 FO Pl Pe f0 f= 扫 ( 双 精 度 ) 浮 点 数 减法 
双 精 度 浮 点 乘法 fmul.d f0，f1，f2 f= Fi 上 向 ( 双 精 度 ) 浮 点 数 乘法 
双 精 度 浮 点 除法 (toy f0= 科 7 和 _ | ( 双 精 度 ) 浮 点 数 除法 
双 精 度 浮 点 平方 根 | fsqrt.d f0，fl1 f0 = Vf1 ( 双 精 度 ) 浮 点 数 平方 根 
单 精度 浮 点 相等 | feq.s x5, f0, f1 |x5 = 1 if f0 一 人 1，else 0 |( 单 精度 ) 浮 点 数 比较 
单 精度 浮 点 小 于 FT XS, PT x5 = 1 if f0 < fl, else 0 ( 单 精度 ) 浮 点 数 比 较 
比较 | 单 精度 浮 点 小 于 或 等 于 Ts a 0 和 洽 x5 = 1 if f0 <= 和 fi， else 0 |( 单 精度 ) 浮 点 数 比 较 
双 精 度 浮 点 相等 feq.d x5, f0O, fl x5 = 1 if f0 一 fl1，el]se 0 |{ 双 精度 ) 浮 点 数 比 较 
双 精 度 浮 点 小 于 FI. 5 可 | ( 双 精 度 ) 浮 点 数 比 较 
双 精 度 浮 点 小 于 或 等 于 fle.d x5, f0, fl x5 = 1 if f0 《= fl。 else 0 |( 双 精度 ) 浮 点 数 比较 
浮 点 取 字 flw f0，4(x5) f0 = Memory[x5 + 4] 从 内 存 中 取 单 精度 字 到 浮 点 寄存 器 
浮 点 取 双 字 fld f0, 8(x5) f0 = Memory[x5 + 8] 从 内 存 中 取 双 精度 字 到 浮 点 寄存 器 
和 浮 点 存 字 fsw f0，4(x5) Memory[x5 + 4] = f0 将 浮 点 寄存 器 中 的 单 精度 字 存 储 到 内 存 
浮 点 存 双 字 fsd f0，8(x5) Memory[x5 + 8] = f0 将 浮 点 寄存 器 中 的 双 精 度 字 存 储 到 内 存 





图 3-17 截止 到 目前 已 涉及 的 RISC-V 浮 点 体系 结构 。 这 些 信息 也 可 以 在 本 书 前 面 的 
RISC-V 参考 数据 卡 的 第 2 列 中 找到 


| 硬 秩 7 软 特 搂 日 ”在 支持 浮 点 算术 时 ， 体 系 结构 设 计 者 面临 的 一 个 问题 是 ， 选 择 使 用 和 
整 点 指令 相同 的 寄存 器 ， 还 是 要 为 浮 点 添加 一 组 专用 寄存 器 。 由 于 程序 通常 会 在 不 同 的 数据 
集 上 分 别 执行 整 点 运算 和 浮 点 运算 ， 因 此 设置 独立 的 寄存 器 只 会 略微 增加 执行 程序 所 需 的 指 
令 数 。 其 影响 主要 是 来 自 于 要 创建 一 组 不 同 的 数据 传输 指令 ， 以 便 在 浮 点 寄存 器 和 内 存 之 间 
传输 数据 。 

独立 的 浮 点 寄存 器 的 好 处 是 ， 在 不 需要 增加 指令 位 长 的 情况 下 ， 可 获得 倍增 的 寄存 器 数 
目 ， 同 时 因为 有 独立 的 整 点 和 浮 点 寄存 器 ， 可 获得 倍增 的 寄存 器 带宽 ， 并 且 还 能 为 浮 点 定制 
寄存 器 。 例 如 ， 一 些 计算 机 将 寄存 器 中 所 有 类 型 的 操作 数 转换 为 单一 的 内 部 格式 。 


| 例题 | 将 浮 点 C 程序 编译 为 RISC-V 汇编 代码 E 
将 华氏 温度 转化 为 摄氏 温度 的 C 语言 程序 : 


float f2c (float fahr) 
{ 





returph ((5.0f/9.0F) tfahe = 32.0f))3 
} 
假设 浮 点 参数 fahr 传人 到 寄存 器 f10 中 ,而 结果 也 要 存放 在 寄存 器 f10 中 。 请 写 出 
RISC-V 汇编 代码 。 
| 答案 | 我 们 假设 编译 器 将 三 个 浮 点 常数 存放 在 内 存 中 ， 并 可 通过 寄存 器 x3 轻松 地 访问 到 。 
首先 用 两 条 指令 将 常数 5.0 和 9.0 加 载 到 浮 点 寄存 器 中 : 
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fF2€: 
Fm 0 Constotxs) {I FO Hadf 
Fw TL Sonstotxsy /MY 1 = 0 


然后 将 它们 相 除 ， 得 到 分 数 5.0/9.0 的 值 : 

Feats tO TO Th A TO 0 
(许多 编译 器 在 编译 时 就 会 计算 5.0 除 以 9.0， 并 将 单 精 度 常 数 5.0/9.0 保存 在 内 存 中 ， 从 而 避 
免 在 运行 时 进行 除法 运算 。) 接 下 来 ， 我 们 加 载 常 数 32.0， 然 后 从 fahr (f10) 中 减 去 它 : 


flw fli, GONsSt32(X3) FY/ fl = 22.07 
Feub.s TiO FlOs NY = Th 


最 后 ， 我 们 将 两 个 中 间 结 果 相 乘 ， 将 积 作为 返回 结果 放 人 f10， 然 后 返回 : 


Pre ss PLO FR TIO A FO = OT OOStfanr = S80) 
洒 轩 小 浊 OS. ORL // return 





现在 让 我 们 在 矩阵 上 执行 浮 点 运算 ， 其 代码 在 科学 计算 程序 中 是 很 常见 的 。 


| 例题 | 将 二 维和 矩阵 的 浮 点 C 程序 编译 为 RISC-V 汇编 代码 a 

大 多 数 浮 点 计算 都 是 以 双 精 度 执行 的 。 让 我 们 执行 C= C+ 4 * 8 的 矩阵 乘法 。 这 是 一 
种 双 精 度 通 用 给 阵 乘法 ， 通 常 被 称 为 DGEMM。 我 们 将 在 3.8 节 以 及 后 续 的 第 4、5、6 章 中 
再 次 看 到 DGEMM 的 版 本 。 现 在 假设 4、8、C 都 是 32 x 32 的 二 维和 矩阵 。 


void mm (double c[]J[], double a[jJ[], double b[][]) 
{ 





DS 
far Ki 0 PT 
Fo 4 二 人 机 
Feor X= 
GLT i = CLI LETTERY Why 
} 
数组 起 始 地 址 作为 函数 参数 ， 它 们 分 别 存放 在 x10、x11 和 x12 中 。 假 设 整数 变量 分 别 存 
放 在 x5、x6 和 x7 中 。 请 写 出 程序 主体 的 RISC-V 汇编 代码 。 
| 答案 | 请 注意 ，c[i][j] 用 于 最 内 层 的 循环 中 。 由 于 该 层 的 循环 变量 是 k， 它 不 会 影响 
cri]rj]， 所 以 我 们 可 以 避免 每 次 循环 加 载 和 存储 c[Li][j]。 编 译 器 在 循环 外 将 c[i] 
[j] 加 载 到 寄存 器 中 ， 然 后 将 a[i][k] 和 pb[k]j[j] 的 乘积 累加 到 这 个 寄存 器 中 ， 在 最 内 
层 循环 结束 后 ， 将 总 和 存放 到 c[i][j] 中 。 我 们 使 用 汇编 伪 指 令 1i 让 代码 更 简洁 ， 它 表 
示 把 一 个 常数 加 载 到 寄存 器 中 。 
该 程序 主体 首先 将 循环 终止 值 32 保存 到 临时 寄存 器 ， 然 后 初始 化 三 个 for 循环 的 循环 


三 
里 : 


并 


~ 


th wp 

| // x28 = 32 (row Size/loop end) 
i 35 0 // i1=0; initialize Lst for 100F 

ee; 1i xX6; 0 //! ji= 0; inmitialize 2nd for loop 

L223 I As 0 1 k=O 1nittialize 3rd for loo% 


要 计算 出 c[i][j] 的 地 址 ， 我 们 需要 知道 一 个 32 x 32 的 二 维 数组 是 如 何 存储 在 内 存 
中 的 。 如 你 所 料 ， 它 的 排 布 和 32 个 有 32 个 元 素 的 一 维 数组 一 样 。 因此 ， 第 一 步 是 跳 过 i 
个 “一 维 数组 ”或 行 ， 以 获得 我 们 想 要 的 一 维 数组 的 起 始 地 址 。 所 以 我 们 将 第 一 维 中 的 下 标 
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乘 以 行 的 大 小 32。 由 于 32 是 2 的 血 ， 我们 可 以 使 用 移 位 操作 代替 : 
S141 0 XH 3 /yy Xai iz oF ROW oF Ce) 
现在 再 加 上 第 2 个 下 标 去 选择 我 们 需要 的 所 在 行 的 第 j 个 元 素 : 
add X30, xa0: 6 1 X30 si hazelrow)y +3 
为 了 将 这 个 和 变 成 一 个 字 节 索 引 ， 我 们 将 它 乘 以 一 个 矩阵 元 素 所 占 的 字 节 大 小 。 由 于 每 个 元 
素 都 是 双 精 度 的 ， 占 8 个 字 节 ， 我 们 可 以 左 移 3 位 : 
1 Ti， 六 30. 0 六 // x30 = byte offset of [i]j[j] 


接 下 来 ,我 们 将 这 个 总 和 加 到 c 的 基地 址 上 ， 得 到 了 c[i][j] 的 绝对 地 址 ， 然 后 将 双 精 度 
数 c[i][j] 加 载 到 f0 中 : 

add x30, x10, x30 // x30 = byte address of c[i]j[j] 

fla TO 0(X30) // f0 = 8 bytes of cL[i][j] 
以 下 五 条 指令 几乎 与 上 面 五 条 指令 相同 : 计算 地 址 ， 然 后 加 载 双 精 度数 b[kJ[j]: 


L88111 X29 XFS Jj/ x29 = kk* Bsize HF row of b) 
add X29, x29, Xx6 J/ X29 k * size(row) + j 
Sili x29: X29, 3 / X= hyte offset of [kj] 
add x29, xl2, x29 // x29 = byte address of b[k]j[j] 
Fld ‘fl, Otx29) // fl = 8 bytes of b[k][j] 


同样 ， 接 下 来 的 五 条 指令 就 像 上 面 五 条 ， 计 算 地 址 然后 加 载 双 精 度数 a[ i ] [kj]: 


自用 国人 本 8 
add x29, x29, x7 // x29 
2 // x29 byte offset of [i]J[k] 
dd 9 Ll 2 byte address of a[i][k] 
人 // f2 = a[i][k] 
现在 我 们 已 经 加 载 了 所 有 的 数据 ， 终 于 准备 好 进行 浮 点 运算 了 ! 我 们 将 位 于 寄存 器 f2 和 f1 
中 的 a 和 b 的 元 素 相 乘 ， 然 后 累加 到 寄存 器 f0 中 : 
区 人 
addad WO, TO Tl wr TO ELT 4 BL 
最 后 的 部 分 需要 将 循环 变量 k 加 1， 如果 k 不 等 于 32， 则 返回 继续 循环 ; 如 果 k 等 于 32， 
那么 最 内 层 的 循环 已 经 结束 ， 我 们 需要 将 寄存 器 f0 中 的 累加 结果 存 回 到 c[i][j] 中 : 


“有 ed | 

BIVuU .XY RB LB 2 R32) A bo La 

tsd 10 O30) A EL = 0 
同样 ， 最 后 的 6 条 指令 递增 中 间 和 最 外 层 循环 的 循环 变量 ， 如 果 循 环 变量 不 等 于 32 则 返回 
循环 ， 如 果 等 于 32 则 退出 循环 : 


addi x6, x6, 1 ol ee Ne A! 

bltt was wap EE 0 TT 
二 于 
全 


i * 2° (size of row of a) 
i Tze(ROWY BF 民 


Un XX 让 全 全 


区 | a 0 2 lS We 1 2 VO: Lo 








后 面 的 图 3-20 展示 了 x86 的 汇编 语言 代码 ， 和 图 3-19 中 的 DGEMM 版 本 略 有 不 同 。 
| 详细 阐述 C 和 许多 其 他 编程 语言 都 使 用 示例 中 讨论 的 数组 排 布 ， 称 为 行 主 序 。Fortran 
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改 为 使 用 列 主 序 ， 即 将 数组 按 列 依次 存储 。 

| 详细 阐述 将 整 点 和 浮 点 寄存 器 分 开 的 另 一 个 原因 是 20 世纪 80 年 代 的 微 处 理 器 没有 
足够 的 晶体 管 来 将 浮 点 单元 和 整 点 单元 集成 到 同一 块 芯片 上 。 因 此 ， 浮 点 单元 ， 包 括 浮 点 案 
存 器 ， 作 为 可 选 的 辅助 芯片 。 这 样 的 可 选 加 速 器 芯片 被 称 为 协 处 理 器 芯片 。 自 90 年 代 以 来 ， 
在 微 处 理 器 芯片 上 集成 了 浮 点 单元 (以 及 几乎 所 有 的 其 他 功能 单元 )， 因 此 在 今天 ， 如果 有 人 
提 及 “ 协 处 理 器 ”"， 就 像 提 及 “累加 器 ”和 “ 磁 芯 处 理 器 ”一 样 ， 已 经 是 陈旧 术语 了 。 

| 缮 细 阐 述 | 如 3.4 节 所 述 ， 加 速 除法 比 乘法 更 具 挑战 性 。 除 了 SRT 之 外 ， 另 一 种 利用 快 
速 乘法 器 的 技术 是 牛顿 迭代 法 ， 它 将 除法 变 为 寻找 函数 的 零点 来 计算 倒数 ce， 然后 再 乘 以 
另 一 个 操作 数 。 如 果 不 计算 许多 额外 的 位 ， 和 迭代 技术 就 不 能 进行 正确 的 含 入 。TI 的 一 款 芯 
通过 在 求 倒数 时 额外 多 求 几 位 来 解决 这 个 问题 。 

| 妊 鸯 曾 壕 | Java 在 浮 点 数据 类 型 和 运算 的 定义 中 也 采用 了 IEEE 754 标准 。 因 此 ， 第 一 
个 例子 中 的 代码 可 以 很 好 地 生成 一 类 将 华氏 转换 为 摄氏 温度 的 方法 。 

上 面 的 第 二 个 例子 使 用 了 多 维 数组 ， 这 个 在 Java 中 不 被 显 式 支持 。Java 允许 在 数组 里 
嵌 套 数组 ， 但 每 个 数组 都 可 以 有 自己 的 长 度 ， 这 与 C 语言 中 的 多 维 数组 不 同 。 与 第 2 章 中 的 
示例 类 似 ， 第 二 个 示例 的 Java 版 本 需要 大 量 的 数组 边界 检查 代码 ， 包 括 在 行 访问 结束 时 计算 
新 的 长 度 。 它 还 需要 检查 对 象 引 用 是 否 非 空 。 


3.5.7 ”精确 算术 


和 整数 能 够 精确 表示 最 小 数 和 最 大 数 之 间 的 每 个 数 不 同 ， 浮 点 | 保护 位 :在 浮 点 运算 的 中 

数 无 法 做 到 真正 精确 的 表示 ， 通 常 只 能 用 近似 值 来 表示 。 原 因 在 于 ， | 问 计 算 中 ， 保 留 在 右 侧 的 

任意 两 个 实数 (比如 1 和 2) 之 间 都 有 无 穷 多 个 实数 ， 而 双 精度 浮 点 | 

数 能 精确 表示 的 最 多 只 有 22 个 数 。 我 们 能 做 的 就 是 获得 和 实际 数字 和 

接近 的 浮 点 数 表示 。 因 此 ，IEEE 754 提供 了 几 种 伟人 的 方法 ， 让 程 

序 员 选择 想 要 的 近似 值 。 舍 入 位 : 使 中 间 结 果 符 合 
舍 人 听 起 来 足够 简单 ， 但 要 精确 地 进行 会 信 则 需要 硬件 在 计算 。 | 洗 点 格式 的 方法 ， 目 标 通 

时 包含 额外 的 位 。 在 前 面 的 例子 中 ， 我 们 很 难说 清 中 间 结 果 到 底 该 | 各 人 全 千 让 呈 

占用 多 少 位 ， 但 显然 ， 如 果 每 个 中 间 结 果 必 须 被 截断 为 精确 的 位 数 ， | 算 的 中 间 运算 中 保留 在 右 

那么 最 后 就 无 法 伟人 了 。 因 此 ，IEEE 754 在 中 间 计 算 时 ， 总 是 在 右 。 | 侧 的 两 个 额外 位 的 第 二 位 ， 

边 保留 两 个 额外 的 位 ， 分 别称 为 保护 位 ( guard) 和 会 入 位 ( round) 。 | 可 尺 提高 合 入 精度 。 

我 们 通过 一 个 十 进 制 的 例子 来 说 明 它 们 的 好 处 。 


| 例题 | 利用 保护 位 进行 伟人 = 
求 2.56ox 10" 和 2.34iox 10? 相 加 之 和 ,假设 有 3 位 有 效 十 进 制 位 。 将 结果 舍 入 到 用 3 

位 有 效 十 进 制 位 能 表示 的 与 精确 结果 最 相近 的 数 ， 首 先 使 用 保护 位 和 舍 入 位 ， 然 后 不 使 用 ， 

观察 区 别 。 

| 答案 | 首先 ， 我们 必须 将 较 小 的 数字 向 右 移 以 对 齐 指数 ， 所 以 2.561o x 10" 变 为 0.0256iox 

10*。 由 于 有 保护 位 和 舍 信 位， 所 以 当 我 们 对 齐 指数 时 ， 能 够 表示 两 个 最 低 有 效 位 。 其 中 保 

护 位 为 5， 舍 入 位 为 6， 和 为 : 





2.3400io 
+ 0.025610 


2.365610 


夺 契 机 的 角 大 运 介 149 





总 和 为 2.3656io x 10*。 因 为 需要 舍 入 2 位， 所 以 我 们 以 50 为 界 ， 如 果 后 两 位 的 值 在 0~49 之 
间 ， 则 将 其 直接 舍 去 ， 如 果 值 在 51~99 之 间 ， 则 爸 入 后 向 高 位 进 1。 因 此 将 和 舍 人 到 3 位 有 
效 位 的 结果 为 2.371o x 10”。 
再 观察 不 带 保 护 位 和 舍 人 位 的 情况 ,会 在 计算 中 丢掉 2 位 有 效 位 。 新 的 和 为 : 
2.3410 
+ 0.0210 
2.3610 


结果 为 2.36io x 有 比 前 一 个 结果 最 后 一 位 小 1。 





舍 人 的 最 坏 情况 是 实际 的 数 刚 好 在 两 个 浮 点 表示 之 间 ， 浮 点 的 ”| 最 后 位 置 单位 :用 于 表示 
精度 通常 以 有 效 数 位 中 最 低 有 效 位 的 错误 位 数 来 衡量 ， 这 种 衡量 方 ”| 在 实际 数 和 可 表示 数 之 间 
式 称 为 最 后 位 置 单位 的 数目 ， 即 ulp。 如 果 一 个 数 的 最 低 有 效 位 比 实 人 
际 小 2， 则 称 少 了 2ulp。 在 没有 上 洲 、 下 溢 或 无 效 操作 引发 例外 的 
情况 下 , IEEE 754 标准 保证 计算 机 使 用 的 数 的 误差 在 半 个 ulp 以 内 。 

| 详细 阐述 虽然 上 面 的 例子 确实 只 需要 一 个 额外 位 就 够 了 ， 但 乘法 可 能 需要 两 个 额外 
位 。 因 为 二 进 制 积 可 能 有 一 个 前 导 0， 因此， 规格 化 时 必须 将 积 左 移 一 位 。 这 就 将 保护 位 转 
换 为 积 的 最 低 有 效 位 ， 留 下 含 入 位 来 帮助 进行 精确 含 入 。 

IEEE 754 有 四 种 含 入 模式 : 总 是 向 上 含 入 ( 朝 + ce )， 总 是 向 下 含 入 ( 朝 一 o )， 截 断 ， 
以 及 舍 入 到 最 接近 的 偶数 。 最 后 一 种 模式 决定 了 数字 恰好 在 两 整数 中 间 一 半 的 情况 下 该 怎么 
做 。 美 国 国内 税务 局 (IRS) 总 是 会 在 计算 时 向 上 舍 入 0.50 美元 。 一 个 更 公平 的 方法 是 前 一 
半 时 间 向 上 含 入 ， 另 一 半 时 间 向 下 含 入 。IEEE 754 标准 规定 ， 如 果 中 间 结 果 的 最 低 有 效 位 是 
奇数 则 加 1， 如 果 是 偶数 则 截断 。 该 方法 总 是 在 中 间 结 果 的 最 低 有 效 位 产生 一 个 0， 因 而 有 
了 这 种 含 入 模式 的 名 称 。 这 种 模式 是 最 常用 的 ， 也 是 Java 支持 含 入 的 唯一 模式 。 

额外 含 入 位 的 目的 是 让 计算 机 获得 相同 的 结果 ， 就 如 同 先 以 无 限 精度 计算 出 中 间 结 果 再 
舍 入 一 样 。 为 了 支持 这 个 目标 并 爸 入 到 最 接近 的 偶数 ， 这 个 标准 设置 了 除了 保护 位 和 舍 入 位 的 
第 三 位 ; 只 要 在 侈 入 位 的 右边 有 非 零 位 ， 就 将 其 设 为 1。 这 个 “ 粘 滞 位 ”人 允许 计算 机 在 倒 入 时 
能 分 辨 出 0.50...00 和 0.50...01 之 间 的 差异 。 

粘 滞 位 可 能 会 置 1, 例如 ， 在 加 法 中 将 较 小 的 数 右 移 时 。 假 设 在 上 面 的 例子 中 我 们 将 
5.0lioX10 和 2.34ioX10* 相 加 。 即 使 有 保护 位 和 舍 入 位 ， 我 们 将 Ri 
0.0050 加 到 2.34， 也 会 得 到 和 为 2.3450。 因 为 右边 有 非 零 位 ， 所 以 | 保护 位 和 含 入 位 之 外 的 
粘 滞 位 将 被 置 1。 如 果 没 有 粘 滞 位 来 记 住 是 否 有 任何 1 被 移出 ， 我 ”| 位 ， 当 右 侧 有 非 替 位 时 就 
们 会 假设 该 数字 等 于 2.345000...00， 并 且 含 入 到 最 接近 的 偶数 2.34。 | 设 为 1。 
通过 粘 滞 位 记 住 该 数字 大 于 2.345000...00， 我 们 会 含 入 到 2.35。 

| 详细 阐述 RISC-V、MIPS-64、PowerPC、SPARC64、AMD SSE5 和 Intel AVX 架构 都 提 
供 了 一 条 单独 的 指令 来 对 三 个 寄存 器 进行 乘法 和 加 法 操作 : a=a+ (bxc)。 显 然 ， 这 条 指令 多 
许 这 种 常见 操作 具有 更 高 的 浮 点 性 能 。 同 样 重要 的 是 ， 不 是 在 不 同 的 
指令 中 执行 两 次 侈 入 一 一 在 乘法 之 后 ， 然 后 在 加 法 之 后 一 一 乘 加 指令 | 混合 乘 加 ; 一 条 既 执 行 笠 
可 以 在 加 法 之 后 只 执行 一 次 单独 的 舍 入 。 该 单独 使 入 步骤 提高 了 乘 加 ”| 法 又 执行 加 法 的 浮 点 指令 ， 
操作 的 精度 。 这 种 带 单独 合 入 的 操作 被 称 为 混合 乘 加 。 它 被 添加 到 修 | 但 只 在 加 法 后 进行 合 入 。 
订 的 IEEE 754-2008 标准 中 ( 见 3.11 节 )。 





150 务 了 全 





3.5,8” 总 结 


下 面 的 “重点 ”强化 了 第 2 章 中 的 存储 程序 概念 : 信息 的 含义 不 能 仅仅 通过 查看 位 来 确 
定 ， 同 样 的 位 可 以 表示 各 种 不 同 的 意思 。 本 节 告 诉 我 们 计算 机 算术 是 有 限 精 度 的 ， 因 此 和 自 
然 算术 所 得 结果 可 能 不 同 。 例 如 ，IEEE 754 标准 浮 点 表示 
Cs )sx ( 1 了 + 有 效 位 数 ) 又 2 (指数 十 偏 移 量 ) 

几乎 总 是 实数 的 近似 值 。 计 算 机 系统 必须 注意 将 现实 世界 中 的 算术 和 计算 机 算术 之 间 的 差距 
最 小 化 ,程序 员 有 时 需要 意识 到 这 种 近似 可 能 带 来 的 后 果 。 

上 耳 阅 ) 位 模式 没有 固有 的 含义 。 它 们 可 能 代表 有 符号 整数 、 无 符号 整数 、 浮 点 数 、 指 
令 、 字 符 串 等 。 表 示 的 内 容 取决 于 指令 对 字 中 的 这 些 位 执行 什么 操作 。 

现实 世界 中 的 数 和 计算 机 中 的 数 的 主要 区 别 在 于 计算 机 中 数 的 字 长 有 限 ， 因 此 精度 有 
限 ; 有 可 能 因为 计算 一 个 太 大 或 太 小 的 数 而 导致 无 法 用 一 个 字 表示 。 程 序 员 必须 记 住 这 些 限 
制 并 相应 地 编写 程序 。 

[顺便 [年 猴 加 | 在 上 一 章 中 ， 我 们 介绍 了 C 语言 的 各 种 存储 类 型 (参见 2.7 节 中 的 硬 
件 / 软 件 接口 部 分 )。 下 表 显 示 了 一 些 C 语 言 和 Java 的 数据 类 型 、 数 据 传输 指令 以 及 对 第 2 
章 和 本 章 中 出 现 的 那些 数据 类 型 的 操作 指令 。 请 注意 ，Java 没有 无 符号 整 型 。 


J 


long long 外 圳 二 9 add, sub, addi, mul, mulh, 
long int mulhu, mulhsu, div, divu, 
rem, remu, and, andi, or, 
| ori， Wa WT 


unsigned | 一 ld sd add, sub, addi, mul, mulh, 














long mulhu, mulhsu, div, divu, 

long int rem, remu, and, andi, or, 
Ors OF KOFI 

char 一 lb, sb add, sub, addi, mul, diyv, 


divu, rem, remu, and, andi, 
or, ori, xor, xori 


SI char Th di Sub, Bedi, ‘mul, diyv; 
divu, rem, remu, and, andi, 
Dr ‘OPT, XO XQPd 











float float flw, fsw Fadd.s:, SubB.S. mils: 
ATV.S,. Feq Ss Titass. Tles 
double double |fld, fsd fadd.d, fsub.d, fmul.d 














上 上 -对 
WE 


[至 弄 阐 通 为 了 适应 可 能 包括 NaN 的 比较 ， 该 标准 提供 有 序 和 无 序 作 为 比较 选项 。 
RISC-V 不 提供 无 序 比较 的 指令 ， 但 经 过 设计 的 有 序 比 较 序列 具有 相同 的 效果 。( Java 不 支持 
无 序 比 较 。) 

为 了 从 浮 点 运算 中 获得 更 大 的 精确 度 ， 该 标准 允许 一 些 数 以 非 规格 化 的 形式 表示 。 
IEEE 人 允许 出 现 非 规格 化 的 数字 (也 称 为 denorm 或 subnormal)， 从 而 可 以 缩小 0 和 最 小 的 规 
格 化 数 之 间 的 差距 。 它 们 具有 与 零 相 同 的 指数 ， 但 是 有 效 位 非 零 。 它 们 允许 有 效 数位 逐渐 变 
小 ， 直 到 变 为 0， 这 称 为 逐步 下 溢 。 例 如 ， 最 小 的 单 精 度 规格 化 正 数 是 : 

1.0000 0000 0000 0000 0000 000, X2 -24 
但 最 小 的 单 精度 非 规格 化 数 是 : 
0.0000 0000 0000 0000 0000 001;xX27*， 即 1.0， X27 9 
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对 于 双 精 度 ， 非 规格 化 间隙 为 1.0X2 "到 1.0x2 7"。 

对 于 试图 实现 快速 浮 点 计算 单元 的 设计 人 员 来 说 ,偶尔 会 出 现 的 非 规 格 化 操作 数 是 一 
令 人 头疼 的 问题 。 因 此 ,许多 计算 机 会 在 出 现 非 规格 化 操作 数 时 引发 例外 ， 让 软件 处 理 相应 
操作 。 Cg 作 是 完全 可 行 的 ， 但 它们 的 低 性 能 影响 了 非 规格 化 数 在 可 移植 的 浮 点 软 
件 中 的 受 欢迎 程度 。 另 外 ， 如 果 程 序 员 并 未 考虑 到 非 规格 化 数 的 情况 ， 那 么 他 们 的 程序 执行 
rp 惊讶 。 


自我 检测 ”修订 后 的 IEEE 754-2008 标准 增加 了 一 个 带 5 位 指数 字段 的 16 位 浮 点 格式 。 你 认为 
它 可 能 代表 的 数字 范围 是 多 少 ? 

1.1.0000 00x2° 到 1.1111 1111 11x2”, 0 

2. +£1.0000 00000x2* 到 二 1.1111 1111 1x2', 4+0, + %, NaN 

3. +1.0000 0000 00x2 “到 + TIE， Na 

4. £1.0000 0000 00x2-5 到 主 1.11111111 11x2%, +0, +%， NaN 


3.6 并行 性 与 计算 机 算术 : 子 字 并 行 

由 于 手机 、 平 板 电脑 或 笔记 本 电脑 中 的 每 个 微 处 理 器 都 有 自己 的 图 形 显示 器 ， 随 着 晶体 
管 数量 的 增加 ， 对 于 图 形 操作 的 支持 也 不 可 避免 地 会 增加 。 

许多 图 形 系统 最 初 使 用 8 位 数据 来 表示 三 原色 中 的 一 种 ， 外 加 8 位 来 表示 一 个 像素 的 位 
置 。 在 电话 会 议和 视频 游戏 中 添加 了 扬声器 和 麦克 风 对 声音 进行 支持 。 音 频 采 样 需要 8 位 以 
上 的 精度 ,但 16 位 精度 就 已 经 足够 了 。 

所 有 微 处 理 器 都 对 字 节 和 半 字 有 特殊 支持 ， 使 其 在 存储 时 占用 更 少 的 存储 器 空间 〈 见 
2.9 节 )， 但 在 典型 的 整数 程序 中 对 这 类 大 小 数据 的 算术 运算 非常 少 ， 因 此 几乎 不 支持 除数 据 
传输 之 外 的 其 他 操作 。 架 构 师 发 现 ,许多 图 形 和 音频 应 用 会 对 这 类 数据 的 向 量 执行 相同 操 
作 。 通 过 在 128 位 加 法 器 内 划分 进位 链 ， 处 理 器 可 以 同时 对 16 个 8 位 操作 数 、8 个 16 位 操 
作 数 、4 个 32 位 操作 数 或 2 个 64 位 操作 数 的 短 向 量 进行 品行 操作 。 

这 种 分 割 加 法 器 的 开销 很 小 ， 但 带 来 的 加 速 可 能 很 大 。 

将 这 种 在 一 个 宽 字 内 部 进行 的 并 行 操作 称 为 子 字 并 行 (subword parallelism)。 更 通用 的 
名 称 是 数据 级 并 行 (data level parallelism )。 对 于 单 指令 多 数据 ， 它 们 也 被 称 为 向 量 或 SIMD 
(参见 6.6 节 )。 多 媒体 应 用 程序 的 逐渐 普及 促使 了 支持 易于 并 行 计 算 的 窄 位 宽 操 作 的 算术 指 
令 的 出 现 。 在 撰写 本 书 时 ，RISC-V 还 没有 开发 利用 子 字 并 行 性 的 额外 指令 。 下 一 节 将 介绍 
该 体系 结构 的 实例 。 


3.7 ”实例 : x86 中 的 SIMD 扩展 和 高 级 向 量 扩展 


x86 的 原始 MMX (MultiMedia eXtension， 多 媒体 扩展 ) 包含 操作 整数 短 向 量 的 指令 。 
而 后 ，SSE ( Streaming SIMD Extension， 流 式 SIMD 扩展 ) 提供 了 操作 单 精 度 浮 点 数 短 向 
量 的 指令 。 第 2 章 指出 ,在 2001 年 ，Intel 在 其 体系 结构 中 增加 了 包含 双 精 度 浮 点 寄存 器 
及 其 操作 的 144 条 指令 作为 SSE2 的 一 部 分 。 它 包含 8 个 可 用 于 浮 点 操作 数 的 64 位 寄存 
器 。AMD 将 其 扩展 到 16 个 寄存 器 ， 作 为 AMD64 的 一 部 分 ， 称 为 XMM，Intel 将 其 标记 为 
EM64T 以 供 使 用 。 图 3-18 总 结 了 SSE 和 SSE2 指令 。 





MOV[AU]1SS|PS|SD|PD}| ADD{SS|PS|SDIPD} xmm, {mem|xmm}| CMP{SS|PS|SD|PD) 
git on Rint SUB{SS|PS|SD'|PD} xmm, {mem|xmm} 
MOVLHL]{PS|PD} xmm, | MUL{SS|PS|SD|PD} xmm, {mem|xmm} 


{mem | xmm)} 
DIV{SS|PSISD|IPD} xmm, {mem|xmm} 




















SQRTI{SS|IPS|SD|PD} {mem|xmm 

MAX{SS|PS|SDIPD} {mem|xmm 

MIN{SS|PS|SD|PD} {mem|xmm 

图 3-18 x86 的 SSE/SSE2 浮 点 指令 。xmm 是 指 一 个 128 位 SSE2 寄 存 器 操作 数 ， 而 
{memlxmm} 则 指 一 个 存储 器 操作 数 ， 或 一 个 SSE2 寄存 器 操作 数 。 上 表 使 用 正则 
表达 式 来 表示 指令 的 变 体 。 因 此 , MOV [AU] {SS | PS | SD | PD} 表示 MOVASS、 
MOVAPS、MOVASD、MOVAPD、MOVUSS、MOVUPS、MOVUSD 和 MOVUPD 八 条 指 
令 。 方 括号 [] 用 来 表示 单字 母 替 换 式 : A 表示 在 存储 器 中 对 齐 的 128 位 操作 数 ; U 
表示 在 存储 器 中 未 对 齐 的 128 位 操作 数 ; H 表示 移动 128 位 操作 数 的 高 半 部 分 ; L 
表示 移动 128 位 操作 数 的 低 半 部 分 。 大 括号 {} 和 垂直 竖 线 | 用 来 表示 基本 操作 的 
多 个 变 体 : SS 表示 标量 单 精度 浮 点 数 ， 或 128 位 寄存 器 中 的 1 个 32 位 操作 数 ; PS 
表示 组 合 的 单 精 度 浮 点 数 ， 或 128 位 寄存 器 中 的 4 个 32 位 操作 数 ; SD 表示 标量 双 
精度 浮 点 数 ， 或 128 位 寄存 器 中 的 1 个 64 位 操作 数 ; PD 表示 组 合 的 双 精 度 浮 点 
数 ， 或 128 位 寄存 器 中 的 2 个 64 位 操作 数 


除了 在 寄存 器 中 存放 单 精 度 或 双 精 度数 ，Intel 还 允许 将 多 个 浮 点 操作 数组 合 (packed ) 
到 单个 128 位 SSE2 寄存 器 中 : 4 个 单 精 度 或 2 个 双 精 度 。 因 此 ，SSE2 的 16 个 浮 点 寄存 器 
实际 为 128 位 宽 。 如 果 操 作 数 能 够 在 存储 器 中 组 织 成 128 位 对 齐 的 数据 ， 则 每 条 128 位 数据 
传输 指令 可 以 载 人 和 存储 多 个 操作 数 。 这 种 组 合 的 浮 点 数 格式 可 以 并 行 运算 4 个 单 精度 (PS) 
或 2 个 双 精 度 (PD) 数 。 

2011 年 ，Intel 使 用 高 级 向 量 扩 展 (Advanced Vector Extensions，AVX) 将 寄存 器 的 位 宽 
青 次 翻 倍 ， 现 称 为 YMM。 因 此 ， 现 在 单 精度 操作 可 以 指定 8 个 32 位 浮 点 运算 或 4 个 64 位 
浮 点 运算 。 原 有 的 SSE 和 SSE2 指令 现在 可 以 操作 YMM 寄存 器 的 低 128 位。 因此 ,为 了 
使 用 128 位 和 256 位 操作 ， 在 SSE2 操作 的 汇编 指令 前 加 上 字母 “v”( 表 示 向 量 )， 然 后 使 用 
YMM 寄存 器 名 而 不 是 XMM 寄存 器 名 。 例 如 ， 执 行 2 个 64 位 浮 点 加 法 的 SSE2 指令 。 

addpd %xmmo ，%xmm4 
变 为 

vaddpd %ymm0, %ymm4 
该 指令 现 产生 4 个 64 位 浮 点 加 法 。Intel 已 经 宣布 ,计划 将 AVX 寄存 器 首先 扩展 到 512 位 ， 
而 后 在 x86 体系 结构 版 本 中 再 扩展 到 1024 位 。 

| 详细 阐述 AVX 还 对 x86 添加 了 三 地 址 指令 。 例 如 ，vaddpd 现在 可 以 指定 

vaddpd %ymm0, %ymml, %ymm4 // %ymm4 = %ymm0 + %ymml 

而 标准 的 两 地 址 版 本 为 : 

addpd %xmmo，%xmm4 // %xmm4 = %xmm4 + %xmmo 
(和 RISC-V 不 同 , x86 的 目的 操作 数 在 右边 。) 三 地 址 可 以 减少 计算 所 需 的 寄存 器 数 和 指令 数 。 
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3.8 加 速 : 子 字 并行 和 和 矩 阵 乘法 

为 了 说 明子 字 并 行 对 性 能 的 影响 ， 我 们 将 先后 在 Intel Core i7 上 运行 相同 但 没有 AVX 和 
带 有 AVX 的 代码 。 图 3-19 展示 了 一 个 用 C 编写 的 未 优化 版 本 的 矩阵 乘法 代码 。 正 如 3.5 节 
中 所 见 ， 该 程序 通常 被 称 为 DGEMM ， 表 示 双 精度 通用 矩阵 乘法 。 从 这 个 版 本 开始 ， 我 们 添 
加 了 新 的 名 为 “加 速 ”的 小 节 来 说 明 在 底层 硬件 上 使 用 适 配 软件 的 性 能 提升 ， 这 里 的 底层 硬 
件 是 Sandy Bridge 版 本 的 Intel Core i7 微 处 理 器 。 在 第 3、4、5 和 6 章 中 ， 新 的 “加 速 ”小 
节 将 使 用 每 章 介 绍 的 思想 逐步 提高 DGEMM 的 性 能 。 


。 Void dgemm (size_t n, double* A, double* B, double* C) 


ee! 
for tsBizZe tt 主 三 Qy 六 了 ;站 站 于) 

faE (ize 了 = 0; 3 ; 二 可 ) 

{ 
double Gi = CIInl? 1 B13 = CIILN *y 
for(al%e. tt k= OF KR < nN Rt 9 

ij += A[i+k*n] * 下 [JS 站 /ois=AlLi] [KI*BLE] [Jl*/ 

Eli = Qh LI SS SL 





图 3-19 未 优化 的 双 精 度 矩 阵 乘法 的 C 语言 版 本 ， 称 为 双 精 度 通用 矩阵 乘法 DGEMM。 因 
为 我 们 将 矩阵 维 数 作为 参数 n 传递 ， 所 以 此 版 本 的 DGEMM 使 用 一 维 版 的 矩阵 C、 
A、B， 以 及 地 址 运算 来 获得 更 好 的 性 能 ， 而 不 是 使 用 在 3.5 节 中 看 到 的 更 直观 的 二 
维 数组 。 注 释 提 醒 我 们 使 用 这 个 更 加 直观 的 符号 


图 3-20 给 出 了 图 3-19 内 部 循环 的 x86 汇编 代码 。 以 字母 “v” 开 头 的 五 条 浮 点 指令 类 
似 于 AVX 指令 ， 但 注意 它们 使 用 XMM 寄存 器 而 非 YMM 寄存 器 ， 且 它们 在 指令 名 称 中 包 
含 sd 以 表示 标量 双 精 度 。 我 们 将 简要 定义 子 字 并 行 指令 。 


vmovsd (%r10),%xmm0 Load 1 element of C into %xmm0 
movV %rsi,%rcx register %rcx %rsi 

xor %eaX,%eax register %eax 0 

vmovsd (%rcx),%xmml Load 1 element of B into %xmml 
add %r9,%rcx register %rcx = %rcx + %r9 
vmulsd (%r8,%rax,8),%xmml ,%xmml Multiply %xmml,element of A 
add $0x1,%rax register %rax = %rax + 1 


cmp %eax,%edi Compare %eax to %edi 
vaddsd %xmml ,%xmmo0 ,%xmmO Add %xmml, %xmmO 

jg 30 <dgemm+0x30> jump if %eax > %edi 

. add $0x1,%rll register %rll = %rll + 1 

. Vvmovsd %xmm0,(%r10) Store %xmm0 into C element 


WW OO WN 


一 
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图 3-20 图 3-19 中 未 优化 的 C 代码 编译 后 生成 的 奉 套 循环 体 的 x86 汇编 语言 。 虽 然 它 只 处 
理 64 位 数据 ， 但 编译 器 使 用 AVX 版 本 的 指令 而 非 SSE2， 因 此 它 的 每 条 指令 可 以 
使 用 三 地 址 而 非 二 地 址 (参见 3.7 节 中 的 详细 阐述 ) 
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由 于 编译 器 编写 者 最 终 可 以 使 用 x86 的 AVX 指令 生成 高 质量 代码 ， 因 此 现在 我 们 必须 
使 用 C 循环 体 的 内 部 函数 来 “作弊 "， 它 或 多 或 少 地 告诉 编译 器 如 何 确切 地 生成 高 质量 代码 。 
3-21 是 图 3-19 的 加 强 版 ， 给 出 了 GNU C 编译 器 生成 的 AVX 代码 。 图 3-22 给 出 了 和 带 注 释 
的 x86 代码 ， 它 是 使 用 gcc -03 级 优化 编译 后 的 输出 。 


/include《x86intrin.h> 
void dgemm (Size tn，doublex A, double* B, double* C) 
{ 
?Tor ( SMze tt 1 ~ 1 
于 
_ m256d c0 = mm256_ load, pd(C+ti+j*n); /* c0 = CLij[j] */ 
站 的 人 人 本 2 
c0 = _mm256_add_pd(c0，/* c0 += AL[i][k]*B[k][j] */ 
_mm256_mu1l_pd(_mm256_1oad_pd(A+i+kxn) ， 
_mm256_broadcast_sd(B+k+jxn))); 
_mm256_store_pd(C+i+jx*xn，c0); /* C[i][j] = c0 */ 


Ws 
2 
济 
4. 
gs 
全 < 
你 
8 
9 


一 ~ 
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图 3-21 优化 的 C 语 言 版 本 的 DGEMM,，, 使 用 C 内 部 函数 为 x86 生成 AVX 子 字 并 行 指令 。 
图 3-22 展示 了 内 部 循环 编译 后 生成 的 汇编 语言 


vmovapd (%rll),%ymmO Load 4 elements of C into %ymm0 
mov %rbx,%rcx register %rcx = %rbx 

xor %eax,%eax register %eax = 0 

vbroadcastsd (%rax,%r8,1),%ymml Make 4 copies of B element 

add $0x8,%rax register %rax = %rax+ 8 

vmulpd (%rcx),%ymml,%ymml Parallel mul %ymml,4 A elements 
add %r9,%rcx register %rcx = %rcx + %r9 


cmp %r1l0,%rax compare %r10 to %rax 


Ww CH YH Or A WR 


vaddpd %ymml ,%ymmo ,%ymmoO Parallel add %ymml ，%ymmo 


请 
OO 


jne 50 «dgemm+0x50> jump if not %rl0 != %rax 


全 
| 


add $0xl1,%esi register % esi =% esi+]1 


[ny 
[DS] 





vmovapd %ymm0 ,(%rll) Store %ymm0 into 4 C elements 


图 3-22 图 3-21 中 优化 C 代码 编译 生成 的 伐 套 循环 体 的 x86 汇编 语言 。 注 意 与 图 3-20 的 相 
似 之 处 ， 主 要 区 别 在 于 五 个 浮 点 操作 现在 使 用 YMM 寄存 器 和 pd 版 本 的 双 精 度 组 
合 指令 ， 而 非 sd 版 本 的 双 精 度 标量 指令 


图 3-21 第 6 行 的 声明 使 用 __m256d 数据 类 型 ， 它 告诉 编译 器 该 变量 将 保存 4 个 双 精 
度 浮 点 值 。 同 样 位 于 第 6 行 的 内 部 函数 _mm256_10ad_pd() 使 用 AVX 指令 将 4 个 双 精 度 
浮 点 数 从 矩阵 5 并 行 地 (_pd) 加 载 到 c0 中 。 在 第 6 行 中 的 地 址 计算 C+i+j*n 表示 元 素 
CLi+jxn]。 相 对 应 地 ， 第 11 行 的 最 后 一 步 使 用 内 部 函数 _mm256_store_pd() 把 来 自 


矿 看 胡 的 确 太 远 舍 155 





c0 的 4 个 双 精 度 浮 点 数 存储 到 矩阵 C 中 。 由 于 每 次 迭代 都 要 处 理 4 个 元 素 , 第 4 行 的 外 部 
for 循环 的 i 递增 4， 而 不 是 像 图 3-19 中 第 3 行 那样 递增 1。 

在 循环 内 部 ， 第 9 行 首 先 使 用 _mm256_1oad_pd() 再 次 载 人 A 的 4 个 元 素 。 为 了 将 
这 些 元 素 乘 以 B 的 一 个 元 素 ， 在 第 10 行 中 先 使 用 内 部 函数 _mm256_broadcast_sd()， 
它 在 一 个 YMM 寄存 器 中 产生 标量 双 精 度数 的 4 个 相同 副本 (本 例 中 的 元 素 B)。 在 第 9 行 
中 ， 使 用 _mm256_mu1l_pd() 同时 乘 4 个 双 精 度 结果 。 最 后 ， 第 8 行 的 _mnm256_add_ 
pd() 将 4 个 乘积 加 到 c0 的 4 个 和 中 。 

图 3-22 给 出 了 由 编译 器 生成 的 内 部 循环 体 的 x86 代码 。 可 以 看 到 5 条 AVX 指令 ( 均 以 
字母 “v” 开 头 且 5 条 中 的 4 条 都 是 使 用 pd 的 双 精 度 组 合 指令 ) 与 上 面 提 到 的 C 的 内 部 函 
数 相对 应 。 该 代码 与 图 3-20 中 的 代码 非常 相似 : 都 使 用 12 条 指令 ， 整 数 指令 几乎 相同 (但 
寄存 器 不 同 )， 浮 点 指令 的 不 同 之 处 仅 在 于 使 用 XMM 寄存 器 的 双 精 度 标量 指令 ( sd) 和 使 
用 YMM 寄存 器 的 双 精 度 组 合 指令 (pd); 不 同 之 处 在 于 图 3-22 中 的 第 4 行 ，A 的 每 个 元 素 
必须 乘 以 8B 的 一 个 元 素 。 一 种 解决 方案 是 将 64 位 B 元 素 的 4 个 相同 副本 依次 放 入 256 位 的 
YMM 寄存 器 ， 这 正 是 vbroadcastsd 指令 所 做 的 工作 。 

对 于 32x32 的 和 矩阵， 图 3-19 中 未 优化 的 DGEMM 在 2.6GHz Intel Core i7 (Sandy 
Bridge) 的 一 个 内 核 上 运行 时 性 能 为 1.7GigaFLOPS (每 秒 浮 点 操作 数 )。 图 3-21 中 优化 代码 
的 性 能 为 6.4GigaFLOPS。 通 过 使 用 枚 训 状 行 ， 很 多 操作 可 以 获得 4 倍 的 加 速 ， 因 此 AVX 版 
本 要 比 原始 版 本 快 3.85 倍 ， 性 能 提升 接近 4.0 倍 。 

| 详细 阐述 正如 1.6 节 详 细 阅 述 中 所 提 到 的 ，Intel 提供 的 Turbo 模式 暂时 以 相对 较 高 的 
时 钟 频率 运行 ， 直 到 芯片 过 热 。 在 Turbo 模式 下 ，Intel Core i7 (Sandy Bridge) 可 以 从 2.6GHz 
增加 3.3GHz。 以 上 是 关闭 Turbo 模式 的 结果 。 若 将 其 打开 ， 由 于 时 钟 频率 提高 了 3.3 /2.6 = 
1.27 倍 ， 使 得 未 优化 的 DGEMM 性 能 提升 到 2.1GFLOPS 且 AVX 性 能 提升 到 8.1GFLOPS。 当 
一 个 八 核 芯片 仅 使 用 单个 核 时 ，Turbo 模式 效果 很 好 ， 因 为 在 该 情况 下 ， 其 他 核 均 空闲 ， 所 以 
单个 核 可 以 使 用 比 共享 情况 下 更 多 的 功 耗 。 


3.9 ” 廖 误 与 陷阱 

算术 谬误 和 陷阱 通常 来 源 于 计算 机 算术 的 有 限 精度 和 自然 算术 | 数学 可 能 被 定义 为 我 们 永 
的 无 限 精度 之 间 的 差异 。 远 不 知道 自己 在 说 什么 ， 

廖 误 : 正如 左 移 指令 可 以 代替 一 个 乘 以 2 的 客 的 整数 ， 右 移 等 “| 个” 局 
同 于 除 以 一 个 2 的 宕 的 整数 。 tt A 
回想 用 二 进 制 数 x (其 中 x 表示 第 i 位 ) 表示 数字 Hords on the Princples of 
es Ep x23 a 到 72 证 Rl . 71 + (x x 20 ) Martmhematics, 1901 
将 c 位 数字 右 移 n 位 等 同 于 除 以 2"。 对 于 无 符号 整数 也 是 如 此 。 问 题 出 在 有 符号 整数 。 例 
如 ,假设 要 用 -5$io 除 以 4io， 商 应 该 是 -lio。-=-5$io 的 二 进 制 补 码 表示 是 

TETITLIT LTE LILI I LL ELIE LO112 


根据 这 个 雇 误 ， 右 移 两 位 应 该 除 4 ( 2 ): 
O00TTLLNL YLILIL IT1I1TL 707011171 1211111 TITY RT TITLYi1L0; 


符号 位 是 0， 这 个 结果 显然 是 错 的 。 右 移 产 生 的 值 实际 上 是 4 611 686 018 427 387 902io 而 不 
是 一 1 > 
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一 种 解决 方法 是 进行 算术 右 移 ， 扩 展 符号 位 而 移 人 0。 产 生 -5w 的 2 位 算术 右 移 结果 
和 了 


结果 是 -2w 而 不 是 -lio， 虽 然 接近 但 仍 不 正确 。 

陷阱 : 浮 点 加 法 不 满足 结合 律 。 

即使 计算 溢出 ， 结 合 律 也 适用 于 二 进 制 补 码 整 数 加 法 序列 。 然 而 ， 由 于 浮 点 数 是 实数 的 
近似 值 ， 且 计算 机 算术 的 精度 有 限 ， 因 此 结合 律 不 适用 于 浮 点 数 。 假 定 可 以 用 浮 点 数 表示 大 
范围 数字 ， 当 两 个 不 同 符 号 的 大 数 加 上 一 个 小 数字 时 会 出 现 问题 。 例 如 ， 让 我 们 来 看 看 是 否 
有 c+ (a+b) = (cta) +b。 假设 c=-1.$ox 10”*，a=1.510o x 10*，b=1.0， 且 都 是 单 精度 数 。 

ct+(atb)=—1.510X 103+( 1.510 X 10+1.0) 
= 一 1.$ioX1038+(1.5$ioX1038 ) 
=0.0 
c+(a+b)=( 一 1.5$ioX 1038+1.5$ioX1038 )+1.0 
=(0.0io )+1.0 
二 

由 于 浮 点 数 的 精度 有 限 且 结果 为 实数 结果 的 近似 值 ，1.5ox 10 远大 于 1.0o， 所 以 
1.510 x 1038+1.0 仍 是 1.510 x 108。 这 就 是 为 什么 c、a、28 三 者 之 和 有 0.0 或 1.0 两 种 结果 ， 这 
取决 于 浮 点 加 法 的 顺序 ， 所 以 c+ (e+p) 关 (cta) +b。 因 此 ， 浮 点 加 法 不 满足 结合 律 。 

廖 误 : 适用 于 整 型 数据 类 型 的 并 行 执行 策略 也 适用 于 浮 点 数据 类 型 。 

一 般 来 说 ， 先 编写 串 行 运行 程序 ， 再 编写 并 行 运行 程序 ， 因 此 自然 会 产生 一 个 问题 ， 
“这 两 个 版 本 会 得 到 相同 的 结果 吗 ? ”如 果 答 案 是 否定 的 ， 你 就 假设 在 并 行 版 本 中 有 一 个 需要 
查找 的 bug。 

该 方法 假定 计算 机 算术 从 串 行 到 并 行 不 会 影响 结果 。 也 就 是 说 ， 如 果 你 要 同时 加 100 万 
个 数 ， 无论 使 用 1 个 处 理 器 还 是 1000 个 处 理 器 ， 都 会 得 到 相同 的 结果 。 这 个 假设 适用 于 二 
进 制 补 码 整数 ， 因 为 整数 加 法 满足 结合 律 。 然 而 ， 由 于 浮 点 加 法 不 满足 结合 律 ， 因 此 该 假设 
不 适用 。 

这 个 廖 误 有 一 个 更 令 人 烦恼 的 情况 可 能 出 现在 并 行 计 算 机 上 ， 其 中 操作 系统 调度 器 可 能 
使 用 不 同 数量 的 处 理 器 ， 这 取决 于 并 行 计算 机 上 正在 运行 的 其 他 程序 。 由 于 每 次 参与 运行 的 
处 理 器 数量 不 同 ， 会 导致 浮 点 求 和 按 不 同 顺序 计算 。 即 使 运行 相同 的 代码 和 相同 的 输入 ， 每 
次 得 到 的 答案 也 会 略 有 不 同 ， 这 可 能 会 让 对 并 行 无 意识 的 编程 人 员 感 到 困惑 。 

在 这 种 困惑 下 ， 编 写 浮 点 数 并 行 代码 的 程序 员 需 要 验证 结果 是 否 可 信 ， 即 使 结果 与 串 行 
代码 的 答案 可 能 不 完全 相同 。 涉 及 此 问题 的 领域 称 为 数值 分 析 ， 该 问题 本 身 就 可 以 成 为 一 本 
教科 书 的 主题 。 这 也 是 用 于 数值 计算 的 LAPACK 和 ScaLAPAK 等 函数 库 流行 的 原因 之 一 ， 
这 些 函 数 库 已 经 在 串 行 和 并 行 形式 下 验证 有 效 。 

廖 误 : 只 有 理论 数学 家 关心 浮 点 精度 。 

1994 年 11 月 的 报纸 头条 证 明了 这 种 说 法 是 廖 误 ( 见 图 3-23 )。 下 面 是 头条 幕后 的 故事 。 

Pentium 使 用 标准 浮 点 除法 算法 ， 每 步 生成 多 个 商 位 ， 使 用 除数 和 被 除数 的 最 高 有 效 位 
来 猜测 商 的 下 两 位 。 猜 测 取 自 包含 -2、-1、0、+1 或 +2 的 查找 表 。 猜 测 结果 乘 以 除数 并 从 
余数 中 减 去 ， 从 而 产生 一 个 新 的 余数 。 与 不 恢复 余数 除法 一 样 ， 如 果 先 前 的 猜测 得 到 的 余数 
太 大 ， 则 在 随后 的 过 程 中 调整 部 分 余数 。 
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显然 ，Intel 工程 师 认 为 80486 表 中 有 五 个 元 素 永 远 不 会 被 访问 ， 并 且 优 化 了 Pentium 中 
的 PLA， 使 在 该 情况 下 返回 0 而 不 是 2。Intel 错 了 : 前 11 位 总 是 正确 的 ， 错 误会 偶尔 出 现 
在 第 12 到 52 位 或 十 进 制 数字 的 第 4 到 第 15 位 。 
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图 3-23 1994 年 11 月 的 报刊 文章 样本 ， 包 括 《 纽 约 时 报 兴 圣何塞 信使 报 兴 旧金山 纪事 报 》 
和 《信息 世界 》。Pentium 的 浮 点 除法 bug 甚至 成 为 电视 节目 “David Letterman 
Late Show” 的 “十 大 新 闻 ”。Intel 最 终 花 费 3 亿美 元 替换 掉 了 有 bug 的 芯 
弗吉尼亚 Lynchburg 学 院 的 数学 教授 Thomas Nicely 在 1994 年 9 月 发 现 了 这 个 bug。 在 
致电 Intel 技术 支持 却 没 有 得 到 官方 回应 后 ， 他 在 网 上 公布 了 该 发 现 。 这 在 商业 杂志 上 引发 
了 一 则 故事 ， 并 引发 Intel 发 布 了 一 条 声明 。Intel 称 其 为 仅 会 影响 理论 数学 家 的 小 故障 ， 对 
于 电子 制 表 软件 用 户 来 说 ， 该 漏洞 平均 每 27 000 年 才 会 发 现 一 次 。IBM 研究 院 很 快 反 驶 说 
电子 制 表 软 件 用 户 平均 每 24 天 就 能 遇 到 一 次 这 样 的 错误 。 很 快 , 在 12 月 21 日 ，Intel 发 布 
了 以 下 声明 表示 认输 : 


Intel 对 近期 发 布 的 Pentium 处 理 器 缺陷 的 处 理 表 示 诚 执 的 歉意。“ Intel Inside ”标记 意 
味 着 你 的 计算 机 拥有 一 个 质量 和 性 能 都 首 慑 一 指 的 微 处 理 器 。 成 千 上 万 的 Intel 员工 非 
常 努力 工作 以 确保 其 真实 有 效 。 但 没有 微 处 理 器 总 是 完美 的 。Intel 仍 相 信 ， 从 技术 上 来 
说 ， 一 个 极其 微小 的 问题 也 有 自己 的 生命 周期 。 虽 然 Intel 一 定 会 对 当前 版 本 的 Pentium 
处 理 器 负责 到 底 ， 但 我 们 也 认识 到 许多 用 户 都 有 顾虑 。 我 们 想 要 解决 这 些 顾虑 。 在 计算 
机 生命 周期 内 的 任何 时 候 ，Intel 都 会 为 所 有 有 需求 的 用 户 免 费 更 换 新 版 Pentium 处 理 器 
(其 中 浮 点 除法 缺陷 已 被 更 正 )。 


分 析 师 估计 ， 这 次 召回 会 导致 Intel 损失 5 亿美 元 ， 而 Intel 工程 师 当 年 没有 拿 到 圣诞 节 

这 个 故事 带 给 大 家 几 点 思考 。 如 果 在 1994 年 7 月 修复 这 个 漏洞 会 少 花 多 少 钱 ? 修复 
Intel 受 损 声誉 的 代价 有 多 大 ? 在 像 微 处 理 器 这 样 被 广泛 使 用 和 信赖 的 产品 中 出 现 bug 的 相关 
责任 是 什么 ? 
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3.10 本章 小 结 


数 十 年 来 ， 计 算 机 算术 已 经 在 很 大 程度 上 被 标准 化 ， 这 极 大 地 提高 了 程序 的 可 移植 性 。 
在 当今 出 售 的 每 台 计算 机 中 ， 都 有 二 进 制 补 码 整数 算法 ， 若 其 包含 对 浮 点 的 支持 ， 则 提供 
IEEE 754 二 进 制 浮 点 算法 。 

计算 机 算术 与 传统 算术 的 不 同 在 于 其 受到 有 限 精度 的 约束 。 该 限制 可 能 因为 计算 大 于 或 
小 于 预定 限制 的 数 而 导致 无 效 操作 。 这 种 例外 现象 称 为 “上 洲 ” 或 “下 洲 ”"， 可 能 导致 例外 
或 中 断 ， 以 及 类 似 于 意外 子 程序 调用 的 突 发 事件 。 第 4 章 和 第 5 章 更 详细 地 讨论 了 例外 。 

浮 点 算术 作为 实数 的 近似 增加 了 挑战 性 ， 并 且 需 要 注意 确保 选择 的 计算 机 数 能 最 接近 实 
际 数 字 。 不 精确 性 和 有 限 浮 点 表达 带 来 的 挑战 是 数值 分 析 领 域 的 部 分 灵感 来 源 。 最 近 转 向 时 
和 性 的 趋势 使 得 数值 分 析 再 次 获得 关注 ， 虽 然 在 顺序 计算 机 上 长 期 被 认为 是 安全 的 解决 方 
案 , 但 是 在 并 行 计算 机 中 必须 重新 考虑 ， 在 寻找 最 快 算法 的 同时 也 要 获取 正确 结果 

数据 级 并 行 ， 特 别 是 子 字 平行 ， 为 整数 或 浮 点 数据 的 算术 密集 型 程序 提供 了 一 条 提高 性 能 
的 简单 途径 。 我 们 展示 了 使 用 可 一 次 执行 4 个 浮 点 操作 的 指令 来 将 矩阵 乘法 速度 提高 近 4 倍 。 

本 章 在 解释 计算 机 算术 的 同时 也 包含 了 更 多 RISC-V 指令 系统 的 描述 。 

图 3-24 对 SPEC CPU2006 整数 和 浮 点 基准 的 20 个 最 常用 RISC-V 指令 的 使 用 频率 进行 
了 排序 。 可 以 看 出 ， 少 数 的 指令 主导 着 这 些 排名 。 在 第 4 章 中 可 以 看 到 ， 这 一 观察 结果 对 处 
理 器 的 设计 有 重大 影响 。 


[AISC RS | 名 各 | 二 于 和 










































































立即 数 加 法 addi 14.36% 14.36% 
取 双 字 1d 8.27% 22.63% 
取 双 精度 浮 点 fld | 6.83% 29.46% 
寄存 器 加 法 | add 6.23% 35.69% 
取 字 Iw 4.38% 40.07% 
存 双 字 sd 4.29% W436% | 
不 等 则 分 支 bne 烛 了 了 让 交 48.50% 
左 移 立即 数 eT 3.65% 52.15% 

| 乘 加 混合 fmadd.d 3.49% | 55.64% | 
相等 则 分 支 beq 3.27% | 58.91% 
立即 数字 加 法 addiw 2.86% 61.77% 
存 双 精度 浮 点 fsd 2.24% 64.00% 
双 精 度 浮 点 乘法 fmul.d 沁 -2 66.02% 
取 立 即 数 高 位 lui 1.56% 67 .59% 
存 字 Sw 1.52% 69.10% 
跳 转 并 链接 at | Te% | 
小 于 则 分 支 blt es 71.86% 

| 字 加 法 addw 1.34% 73.19% 
双 精 度 浮 点 减法 fsub.d 1.28% 74.47% 
大 于 或 等 于 则 分 支 bge Ll 六 75.75% 














图 3-24 SPEC CPU2006 基准 测试 中 RISC-V 指令 的 使 用 频 碳 率 。 表 中 包含 20 条 最 常 使 用 的 
指令 ， 这 些 指令 占 所 有 执行 指令 的 76%。 伪 指令 在 执行 前 转换 为 RISC-V， 因 此 在 
这 里 不 会 出 现 ， 这 在 一 定 程度 上 说 明 addi 使 用 频繁 
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无 论 指令 系统 是 什么 或 其 规模 如 何 ( RISC-V、MIPS、x86 )， 永 远 不 要 忘记 数位 没有 内 
在 含义 。 相 同 的 数位 可 以 表示 有 符号 整数 、 无 符号 整数 、 浮 点 数 、 字 符 串 、 指 令 等 。 在 存储 
程序 计算 机 中 ， 对 数位 的 操作 决定 其 含义 。 


3:1 


历史 视角 和 拓展 阅读 


本 节 将 回溯 到 冯 . 诺 依 曼 时 代 以 纵览 浮 点 历史 ， 包 括 有 争议 的 “| Gresham 法 则 (“党 币 驱 未 
IEEE 标准 令 人 惊讶 的 成 就 ， 以 及 x86 中 80 位 浮 点 堆栈 体系 结构 的 “| 良 币 ") 对 计算 机 而 言 是 : 


基本 原理 。 详 见 配套 网 站 上 的 3.11 节 。 


3.12 


3.1 


3.2 


3.3 


3.4 
3.5 


3.6 


7 


3.8 


3.9 


3.10 


3.13 


3.14 


“ 快 的 淘汰 慢 的 ， 即 使 快 
的 是 错误 的 。” 
1 Kahan, 1992 


练习 

[5 ] <3.2 >5ED4-07A4 用 无 符号 16 位 十 六 进 制 数 表示 是 什么 ? 结果 greet 
pe 加 不 、 决 不 、 绝 不 悍 服 于 任 

人 人 PE | 。 | 何事 情 ， 无 论 伟大 或 涉 

[5 ] <3.2 >5ED4-07A4 用 带 符号 16 位 十 六 进 制 数 且 以 符号 一 数值 形 “| 小 ， 庞 大 或 细微 一 决 不 

式 存储 时 如 何 表示 ”结果 用 十 六 进 制 表 示 。 屋 服 。 


[10] <3.2> 将 5ED4 转换 为 二 进 制 数 。 是 什么 让 十 六 进 制 表示 计算 “| MA 他 Wor10m Currhibp 

在 Nazzzpi School 的 演讲 
机 中 的 数值 充满 魅力 ? 
[15 ] < 3.2 >4365-3412 用 无 符号 12 位 八进制 数 表示 是 什么 ?结果 用 八进制 表示 。 
[5 ] <3.2 >4365-3412 用 带 符号 12 位 八进制 数 且 以 符号 -数值 形式 存储 时 如 何 表 示 ? 结果 用 八 
进 制 表 示 。 
[5 ] <3.2> 假 设 185 和 122 是 无 符号 的 8 位 十 进 制 整数 。 计 算 185-122。 是 否 上 溢 或 下 溢 ， 或 
都 没有 ? 
[5 ] <3.2> 假设 带 符号 的 8 位 十 进 制 整数 185 和 122 以 符号 - 数值 形式 存储 。 计 算 185 + 122。 
是 否 上 溢 或 下 溢 ， 或 都 没有 ? 
[5] < 3.2> 假定 带 符号 的 8 位 十 进 制 整数 185 和 122 以 符号 - 数值 形式 存储 。 计 算 185-122。 
是 否 上 溢 或 下 洲 ， 或 都 没有 ? 
[ 10] < 3.2 > 假设 带 符号 的 8 位 十 进 制 整数 151 和 214 以 二 进 制 补 码 形式 存储 。 使 用 饱和 算法 
计算 151 + 214。 结 果 用 十 进 制 表示 。 
[ 10 ] <3.2 > 假设 带 符号 的 8 位 十 进 制 整数 151 和 214 以 二 进 制 补 码 形式 存储 。 使 用 饱和 算法 
计算 151-214。 结 果 用 十 进 制 表 示 。 
[10] <3.2> 假 设 151 和 214 是 无 符号 8 位 整数 。 使 用 饱和 算法 计算 151+ 214。 结 果 用 十 进 制 
表示 。 
[ 20 ] < 3.3 > 使 用 类 似 于 图 3-6 所 示 的 表格 ， 使 用 图 3-3 中 的 硬件 描述 计算 八进制 无 符号 6 位 整 
数 62 和 12 的 乘积 。 须 在 每 步 中 写 出 各 个 寄存 器 的 内 容 。 
[ 20 ] <3.3 > 使 用 类 似 于 图 3-6 所 示 的 表格 ， 使 用 图 3-5 中 的 硬件 描述 计算 十 六 进 制 无 符号 8 位 
整数 62 和 12 的 乘积 。 须 在 每 步 中 写 出 各 个 寄存 器 的 内 容 。 
[ 10 ] <3.3 > 如 果 一 个 整数 是 8 位 宽 且 每 步 操作 需要 4 个 时 间 单 位 ， 使 用 图 3-3 和 图 3-4 中 给 出 
的 方法 计算 执行 一 次 乘法 所 需 的 时 间 。 假 设 在 步 又 1a 中 总 是 执行 加 法 ,无论 是 加 上 被 乘 数 还 
是 零 。 另 外 假设 寄存 器 已 经 被 初始 化 (你 只 需要 计算 执行 乘法 循环 本 身 需要 多 长 时 间 )。 如 果 
是 在 硬件 中 执行 ， 则 可 以 同时 完成 被 乘 数 和 乘 数 的 移 位 。 如 果 这 是 在 软件 中 执行 ， 则 必须 依 
次 完成 。 给 出 每 种 情况 的 解答 。 
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3.28 


3.30 


惫 3 芋 








[ 10 ] < 3.3 > 如 果 一 个 整数 是 8 位 宽 且 一 次 加 法 需要 4 个 时 间 单 位 ， 计 算 使 用 文中 描述 的 方法 
(31 个 垂直 加 法 堆栈 ) 执行 乘法 所 需 的 时 间 。 

[20 ] < 3.3 > 如 果 一 个 整数 是 8 位 宽 且 一 次 加 法 需要 4 个 时 间 单 位 ， 计 算 使 用 图 3-7 给 出 的 方法 
执行 乘法 所 需 的 时 间 。 

[20 ] <3.3 > 正如 文中 讨论 的 ， 增 强 性 能 的 一 种 可 能 是 做 移 位 和 加 法 来 替代 实际 的 乘法 。 因 为 
例如 9x6 可 以 写成 (2x2x2+1) x6， 所 以 可 以 通过 将 6 向 左 移动 3 次 再 加 上 6 来 计算 
9 x 6。 给 出 使 用 移 位 和 加 /减法 计算 0x33 x0x55 的 最 佳 方法 。 假 设 两 个 输入 都 是 8 位 无 符 
号 整数 。 

[ 20 ] <3.4> 使 用 类 似 于 图 3-10 所 示 的 表格 ,使 用 图 3-8 中 的 硬件 描述 计算 74 除 以 21。 须 在 每 
步 中 给 出 各 个 寄存 器 的 内 容 。 假 设 两 个 输入 都 是 无 符号 的 6 位 整数 。 

[30 ] <3.4 > 使 用 类 似 于 图 3-10 所 示 的 表格 ， 使 用 图 3-11 中 的 硬件 描述 计算 74 除 以 21。 须 在 
每 步 中 给 出 各 个 寄存 器 的 内 容 。 假 设 A 和 B 是 无 符号 的 6 位 整数 。 此 算法 使 用 的 方法 与 图 
3-9 中 所 示 的 稍 有 不 同 。 你 需要 认真 思考 这 个 问题 ， 做 一 个 或 两 个 实验 ， 或 者 去 网 上 寻找 方法 
以 使 其 正确 工作 。( 提 示 : 一 种 可 能 的 解决 方案 涉及 图 3-11 暗示 的 余数 寄存 器 可 以 向 任 一 方向 
移 位 的 事实 。) 

[5] <3.5 > 如 果 是 整数 的 二 进 制 补 码 ， 位 模式 0x0C000000 表示 的 十 进 制 数 是 什么 ? 如 果 是 无 
符号 整数 呢 ? 

[ 10 ] < 3.5 > 如 果 位 模式 0x0C000000 被 放 人 指令 寄存 器 ， 将 执行 什么 MIPS 指令 ? 

[ 10 ] <3.5 > 如 果 是 浮 点 数 ， 位 模式 0x0C000000 表示 的 十 进 制 数 是 什么 ?使 用 IEEE 754 标准 。 
[ 10 ] < 3.5 > 假定 采用 IEEE 754 单 精度 格式 ， 写 出 十 进 制 数 63.25 的 二 进 制 表示 。 

[10 ] < 3.5 > 假定 采用 IEEE 754 双 精 度 格式 ， 写 出 十 进 制 数 63.25 的 二 进 制 表示 。 

[ 10 ] < 3.5 > 假定 使 用 单 精度 IBM 格式 (基数 为 6， 而 不 是 2， 指数 为 7 位 ) 存储 ， 写 出 十 进 
制 数 63.25 的 二 进 制 表示 形式 。 

[20 ] <3.5 > 假定 采用 一 种 类 似 DEC PDP-8 的 格式 (最 左边 12 位 是 指数 ， 以 二 进 制 补 码 形式 存 
储 ， 最 右边 24 位 是 小 数 ， 同 样 以 二 进 制 补 码 形式 存储 )， 写 出 -1.5625 x 10 的 二 进 制 位 模 
式 。 没 有 隐 含 1。 与 IEEE 754 标准 的 单 精度 和 双 精 度 进行 比较 ， 评 估 这 个 36 位 模式 的 范围 
和 精确 度 。 

[ 20 ] <3.5 >IEEE 754-2008 包含 一 种 只 有 16 位 宽 的 “ 半 精 度 ` 格式 。 最 左边 仍 是 符号 位 ， 指 数 
5 位 宽 且 以 余 -16 (excess -16 ) 的 形式 存储 ， 偏 移 量 是 15， 尾 数 是 10 位 宽 。 假 设 隐 含 1。 写 
出 该 格式 表示 -1.5625 x 107 的 位 模式 。 与 IEEE 754 标准 的 单 精 度 进行 比较 ， 评 估 该 16 位 
浮 点 格式 的 范围 和 精确 度 。 

[ 20 ] <3.5 >Hewlett-Packard 2114、2115 和 2116 使 用 的 格式 为 : 最 左边 的 16 位 是 以 二 进 制 补 
码 形式 存储 的 小 数 ， 接 在 其 后 的 是 另 一 个 16 位 字段 ， 其 最 左边 的 8 位 作为 小 数 扩展 (让 小 数 
长 为 24 位) 且 最 右边 的 8 位 表示 指数 。 然 而 ， 作 为 一 个 有 趣 的 交叉 ， 指 数 以 符号 - 数值 形式 
存储 且 符号 位 在 最 右边 ! 写 出 该 格式 下 -1.5625 x 10-1 的 位 模式 。 没 有 隐 含 1。 与 IEEE 754 
标准 的 单 精 度 进行 比较 ， 评 估 这 个 32 位 模式 的 范围 和 精确 度 。 

[ 20 ] <3.5 > 手动 计算 2.6125 x 101 与 4.150390625 x 101 的 和 ， 假 设 A 和 了 B 以 练习 3.27 所 述 的 
16 位 半 精 度 格式 存储 。 假 设 有 1 个 保护 位 、1 个 舍 入 位 和 1 个 粘 滞 位 ， 并 舍 人 到 最 近 的 偶数 。 
给 出 所 有 步骤 。 

[30 ] <3.5 > 手动 计算 -8.0546875 x 10" 与 -1.79931640625 x 107 的 乘积 , 假设 A 和 B 以 练习 
3.27 所 述 的 16 位 半 精 度 格式 存储 。 假 设 有 1 个 保护 位 、1 个 舍 人 位 和 1 个 粘 灌 位 ， 并 舍 入 到 
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3.36 


.37 


3.38 


3:39 





最 近 的 偶数 。 给 出 所 有 步 又 。 然 而 ， 正 如 文中 示例 所 示 ， 你 可 以 使 用 人 为 可 读 的 格式 执行 乘 
法 ， 而 不 是 使 用 练习 3.12 一 3.14 中 描述 的 技术 。 指 出 是 否 上 洲 或 下 洲 。 分 别 使 用 练习 3.27 
中 描述 的 16 位 浮 点 格式 和 十 进 制 数 来 作答 。 你 的 结果 精确 度 如 何如 果 在 计算 器 上 进行 乘法 
运算 ， 它 与 你 得 到 的 数字 相 比 如 何 ? 

[ 30 ] <3.5 > 手动 计算 8.625 x 10' 除 以 -4.875 x 10"。 给 出 得 到 答案 所 需 的 所 有 必要 步骤 。 假 设 
有 1 个 保护 位 、1 个 舍 入 位 和 1 个 烙 灌 位 ， 并 在 必要 时 使 用 它们 。 用 练习 3.27 中 描述 的 16 位 
浮 点 格式 和 十 进 制 数字 写 出 最 终 答案 ， 并 将 十 进 制 结 果 与 计算 器 算得 结果 进行 比较 。 

[20 ] <3.10 > 手动 计算 (3.984375 x 10 + 3.4375 x 107 )+ 1.771 x 103， 假 设 每 个 值 都 以 练习 
3.27 中 描述 的 16 位 半 精 度 格式 存储 (在 文中 也 有 描述 )。 假 设 有 1 个 保护 位 、1 个 舍 入 位 和 1 
个 粘 滞 位 ， 并 舍 人 到 最 近 的 偶数 。 给 出 所 有 步 又， 并 用 16 位 浮 点 格式 和 十 进 制 写 出 答案 。 
[20 ] < 3.10 > 手动 计算 3.984375 x 101+ (3.4375 x 10 + 1.771 x 103 )， 假 设 每 个 值 都 以 练习 
3.27 中 描述 的 16 位 半 精 度 格 式 存储 (在 文中 也 有 描述 )。 假 设 有 1 个 保护 位 、1 个 舍 和 人 位 和 1 
个 粘 滞 位 ， 并 舍 入 到 最 近 的 偶数 。 给 出 所 有 步骤 ， 并 用 16 位 浮 点 格式 和 十 进 制 写 出 答案 。 
[10] <3.10> 根 据 练习 3.32 和 3.33 的 答案 ， 计算 (3.984375x107 +3.4375Sx10 ”) + 
1.771 x 103 = 3.984375 x 10"1 + (3.4375 x 10 + 1.771x10? ) 是 否 成 立 ? 

[10] <3.10> 手动 计算 (3.41796875 x 10“，x 6.34765625 x 10”) x 1.05625 x 10*， 假设 每 个 值 
都 以 练习 3.27 中 描述 的 16 位 半 精 度 格 式 存 储 (在 文中 也 有 描述 )。 假 设 有 1 个 保护 位 、1 个 
舍 入 位 和 1 个 粘 滞 位 ， 并 舍 人 到 最 近 的 偶数 。 给 出 所 有 步 又， 并 用 16 位 浮 点 格式 和 十 进 制 写 
出 答案 。 

[30] <3.10 > 手动 计算 3.41796875 x 103 x ( 6.34765625 x 103 x 1.05625 x 10? )， 假 设 每 个 值 
都 以 练习 3.27 中 描述 的 16 位 半 精 度 格式 存储 〈 在 文中 也 有 描述 )。 假 设 有 1 个 保护 位 、1 个 
伟人 位 和 1 个 粘 滞 位 ， 并 铭 人 到 最 近 的 偶数 。 给 出 所 有 步 又 ， 并 用 16 位 浮 点 格式 和 十 进 制 写 
出 答案 。 

[30] <3.10> 根 据 练习 3.35 和 3.36 的 答案 ， 计 算 (3.41796875 x 10”x 6.34765625x 10” ) 
x 1.05625 x 102 = 3.41796875 x 103x (6.34765625 x 10”x 1.05625 x 10? ) 是 否 成 立 ? 

[30] <3.10 > 手动 计算 1.666015625 x 10"x (1.9760 x 104+(-1.9744 ) x 10* )， 假设 每 个 值 都 
以 练习 3.27 中 描述 的 16 位 半 精 度 格式 存储 (在 文中 也 有 描述 )。 假 设 有 1 个 保护 位 、1 个 舍 
入 位 和 1 个 烙 沾 位 ， 并 舍 入 到 最 近 的 偶数 。 给 出 所 有 步骤 ， 并 用 16 位 浮 点 格式 和 十 进 制 写 出 
答案 。 

[30] <3.10 > 手动 计算 ( 1.666015625 x 10"x 1.9760 x 10*)+(1.666015625 x 10"x (一 1.9744 ) 
x 104 )， 假 设 每 个 值 都 以 练习 3.27 中 描述 的 16 位 半 精 度 格式 存储 (在 文中 也 有 描述 )。 假 设 
有 1 个 保护 位 、1 个 舍 入 位 和 1 个 粘 滞 位 ， 并 舍 入 到 最 近 的 偶数 。 给 出 所 有 步骤 ， 并 用 16 位 
浮 点 格式 和 十 进 制 写 出 答案 。 

[10] <3.10> 根 据 练 习 3.38 和 3.39 的 答案 ， 计 算 (1.666015625 x10?x1.9760x10*)+ 
(1.666015625 x 10°x (—1.9744) x104) = 1.666015625x 10"x (1.9760x10*+(—1.9744) x 
10* ) 是 否 成 立 ? 

[10] <3.5> 使 用 IEEE 754 浮 点 格式 ， 写 出 表示 -1/4 的 位 模式 。 你 能 准确 表示 -1/4 吗 ? 
[10] <3.5 > 如 果 将 -14 自 加 四 次 会 得 到 什么 ?一 1/4 x 4 呢 ? 它们 一 样 吗 ? 它们 应 该 是 多 少 ? 
[ 10 ] <3.5> 假设 分 数 使 用 二 进 制 数 浮 点 格式 ， 写 出 值 1/3 的 分 数位 模式 。 假 设 有 24 位 ， 且 不 
需要 规格 化 。 这 种 表示 准确 吗 ? 

[ 10 ] <3.5 > 假设 分 数 使 用 二 进 制 编码 的 十 进 制 (底数 为 10 ) 数字 而 非 底数 为 2 的 浮 点 格式 ， 
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写 出 值 1/3 的 分 数位 模式 。 假 设 有 24 位 ， 且 不 需要 规格 化 。 这 种 表示 准确 吗 ? 
[10] <3.5 > 假设 在 值 1/3 的 分 数 中 使 用 底数 为 15 的 数字 而 非 底数 为 2， 写 出 其 位 模式 。( 底 数 
为 16 的 数字 使 用 符号 0 一 9 和 A 一 F。 底 数 为 15 的 数字 将 使 用 0 一 9 和 A 一 E-.) 假设 有 24 
位 ， 且 不 需要 规格 化 。 这 种 表示 准确 吗 ? 
[20] <3.5 > 假设 在 值 1/3 的 分 数 中 使 用 底数 为 30 的 数字 而 非 底 数 为 2， 写 出 其 位 模式 。( 底 数 
为 16 的 数字 使 用 符号 0 一 9 和 A 一 F。 底 数 为 30 的 数字 将 使 用 0 一 9 和 A 一 T。) 假设 有 20 
位 ， 且 不 需要 规格 化 。 这 种 表示 准确 吗 ? 
[45 ] <3.6,3.7> 以 下 CC 代码 在 输入 数组 sig_in 上 实现 了 一 个 四 阶 FIR 滤波 器 。 假 设 所 有 数 
组 都 是 16 位 定点 值 。 

for {i = ie TeeBit 

SG Gutli] = Sig loli = 3 QT TT 

+ Sig in[i = 1] * FL2] + SET * FE3]: 

假设 你 要 在 具有 SIMD 指令 和 128 位 寄存 器 的 处 理 器 上 ， 用 汇编 语言 编写 此 代码 的 优化 实现 。 
在 不 了 解 指令 系统 细节 的 情况 下 ， 简 要 描述 你 将 如 何 实现 此 代码 ， 最 大 限度 地 利用 子 字 操 作 
并 最 大 限度 地 减少 寄存 器 和 内 存 之 间 的 数据 传输 量 。 指 明 你 对 所 使 用 指令 的 所 有 假设 。 
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计算 机 的 五 个 经 典 部 件 


4.1 引言 


第 1 章 阐 述 了 计算 机 的 性 能 取决 于 三 个 因素 : 指令 数 、 时 钟 周 | 在 关键 问题 上 ， 没 有 什么 
期 长 度 和 每 条 指令 的 时 钟 周期 数 (CPI)。 第 2 章 说 明了 给 定 程 序 需 | 细节 是 小 事 。 
要 的 指令 数 由 编译 器 和 指令 系统 体系 结构 共同 决定 。 而 处 理 器 的 实 上 < 四 细 兴 
现 方式 则 决定 了 时 钟 周期 长 度 和 CPI。 在 本 章 中 ,我 们 为 RISC-V 指 
令 系 统 的 两 种 不 同 实现 方式 分 别 设计 数据 通路 并 加 入 控制 单元 。 

本 节 将 概括 地 介绍 实现 处 理 器 所 要 用 到 的 原理 和 技术 。 首 先 从 一 个 高 度 抽象 和 简化 的 概 
述 开 始 ， 之 后 以 此 为 基础 为 RISC-V 指令 系统 构建 数据 通路 ， 并 设计 一 种 简单 的 、 能 够 实现 
指令 系统 的 处 理 器 。 然 而 ， 更 接近 实际 情况 的 是 圭 求 线 RISC-V， 所 以 本 章 的 大 部 分 篇 幅 将 
介绍 这 种 实现 方式 。 最 后 一 节 将 介绍 实现 更 复杂 的 指令 系统 (如 x86 指令 集 ) 时 所 需要 了 解 
的 概念 。 

本 节 和 4.5 节 介 绍 流水 线 的 基本 概念 ， 如 果 想 要 理解 指令 的 高 层 解释 及 其 对 程序 性 能 的 
影响 ， 可 以 仔细 阅读 这 些 部 分 。4.10 节 介 绍 目前 处 理 器 实现 的 发 展 趋势 ，4.11 节 讲 述 了 最 新 
处 理 右 Intel Core i 和 ARM Cortex-A53 的 架构 。4.12 节 介 绍 如 何 通 过 指令 级 并 行 来 提高 矩 
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阵 乘 法 的 性 能 ( 见 3.9 节 )。 这 几 节 为 在 高 层次 理解 流水 线 概念 提供 了 必要 的 背景 知识 。 

如 果 读 者 想 要 更 深入 地 理解 处 理 器 结构 及 其 对 性 能 的 影响 ,那么 4.3、4.4、4.6 节 的 内 
容 将 有 助 于 你 的 学 习 。 如 果 想 要 学 习 如 何 实现 处 理 器 ,那么 你 应 该 阅读 4.2、4.7 一 4.9 节 。 
如 果 读 者 有 兴趣 学 习 硬 件 设 计 ，4.13 节 介 绍 了 实现 硬件 时 使 用 的 硬件 设计 语言 与 CAD 工具 ， 
以 及 如 何 使 用 硬件 设计 语言 来 描述 一 个 流水 化 的 实现 。4.13 节 对 于 理解 流水 化 硬件 执行 的 细 
节 也 有 很 大 帮助 。 


4.1.1 一 种 基本 的 RISC-V 实现 


我 们 将 实现 RISC-V 的 一 个 核心 子 集 : 

e 存储 器 访问 指令 load doubleword (1d) 和 store doubleword (sd )。 

。 算术 逻辑 指令 add、sub、and 和 or。 

e 条 件 分 支 指令 branch if equal (beq )。 

这 个 子 集 没有 包含 所 有 的 定点 指令 (例如 shift、multiply 和 divide 指令 均 不 在 集合 中 )， 
也 没有 包含 任何 浮 点 指令 。 但 是 ， 这 个 子 集 说 明了 建立 数据 通路 和 设计 控制 的 关键 原理 。 其 
余 指 令 的 实现 与 这 个 子 集 类 似 。 

在 完成 指令 系统 实现 的 过 程 中 ， 我 们 将 认识 到 指令 系统 体系 结构 如 何 从 多 方面 影响 指 
令 系 统 的 实现 ， 以 及 各 种 实现 策略 的 选择 会 怎样 影响 计算 机 的 时 钟 频率 和 CPI。 此 外 ， 实 
现 过 程 也 证 明了 许多 第 2 章 介绍 的 关键 设计 原则 ， 例 如 简单 源 于 规整 。 而 且 ， 本 章 在 实现 
RISC-V 子 集 时 所 涉及 的 大 多 数 概念 ， 与 实现 各 种 计算 机 所 涉及 的 基本 概念 是 相同 的 ， 如 高 
性 能 服务 器 、 通 用 微 处 理 器 、 艇 入 式 处 理 器 等 各 种 计算 机 。 


4.1.2 ”实现 概述 


在 第 2 章 , 我 们 着 眼 于 RISC-V 核心 指令 ， 包 括 定 点 算术 逻辑 指令 、 存 储 器 访问 指令 和 
分 支 指令 。 执 行 这 些 指令 所 要 做 的 大 部 分 工作 是 相同 的 ， 与 确切 的 指令 类 别 无 关 。 具 体 地 ， 
实现 每 条 指令 的 前 两 个 步骤 是 相同 的 : 

1. 程序 计数 器 (PC ) 发 送 到 指令 所 在 的 存储 单元 ， 并 从 中 取出 指令 。 

2. 根据 指令 的 某 些 字段 选择 要 读 取 的 一 个 或 两 个 寄存 器 。 对 于 1d 指令 ， 只 需要 读 取 一 
个 寄存 器 ， 但 大 多 数 其 他 指令 需要 读 取 两 个 寄存 器 。 

在 这 两 个 步骤 后 ， 完 成 指令 所 需 的 剩余 操作 则 取决 于 指令 类 别 。 幸 运 的 是 ， 对 于 三 类 指 
令 (存储 器 访问 指令 、 算 术 侵 辑 指令 和 分 支 指令 ) 中 的 每 一 种 ， 剩 余 操 作 基 本 上 是 相同 的 ， 
与 具体 的 指令 无 关 。RISC-V 指令 系统 的 简单 性 和 规整 性 使 不 同类 的 指令 具有 类 似 的 执行 过 
程 ， 从 而 简化 了 实现 。 

例如 ， 所 有 类 型 的 指令 在 读 取 寄存 器 后 都 使 用 算术 逻辑 单元 (ALU)。 存 储 器 访问 指令 
用 ALU 进行 地 址 计算 , 算术 人 逻辑 指令 用 ALU 来 执行 运算 ， 而 条 件 分 支 指令 用 ALU 进行 比 
较 。 但 是 经 过 ALU 后 ， 完 成 各 类 指令 所 需 的 操作 就 不 同 了 。 存 储 器 访问 指令 需要 访问 存储 
器 以 读 取 数 据 或 存储 数据 。 算 术 逮 辑 指令 或 载 人 指令 需要 将 来 自 ALU 或 存储 器 的 数据 写 回 
寄存 器 。 而 条 件 分 支 指令 需要 根据 比较 结果 更 改 下 一 条 指令 的 地 址 ; 否则 ， 下 一 条 指令 的 地 
址 会 通过 PC 加 4 来 获得 。 

图 4-1 是 RISC-V 实现 的 抽象 视图 ， 图 中 主要 描述 了 各 功能 单元 及 它们 之 间 的 互 连 。 尽 
管 该 图 展示 了 经 过 处 理 器 的 大 部 分 数据 流动 ， 但 忽略 了 指令 执行 的 两 个 重要 方面 。 
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图 4-1 RISC-V 子 集 实现 的 抽象 图 ， 描 述 主要 功能 单元 及 它们 之 间 的 主要 连接 。 所 有 的 指 
令 都 始 于 用 程序 计数 器 获得 指令 在 指令 存储 器 中 的 地 址 。 取 到 指令 后 ， 指 令 的 对 应 
字段 指定 要 使 用 的 寄存 器 操作 数 。 寄 存 器 操作 数 一 被 取出 ， 即 可 用 于 计算 存储 器 地 
址 (load 指令 或 store 指令 )、 计 算 算术 运算 结果 (定点 算术 人 逻辑 指令 ) 或 进行 相等 检 
查 (分 支 指令 )。 如 果 是 算术 逻辑 指令 ，ALU 的 结果 必须 写 回 寄存 器 。 如 果 是 存 取 
操作 ，ALU 的 结果 将 作为 存储 器 地 址 以 存储 来 自 寄存 器 的 值 ， 或 将 存储 器 数据 加 载 
到 寄存 器 中 。ALU 结果 或 访问 存储 器 的 结果 将 写 回 到 寄存 器 堆 。 分 支 指令 需要 根据 
ALU 输出 来 确定 下 一 条 指令 的 地 址 ， 这 个 地 址 可 能 来 自 计 算 PC 和 分 支 偏 移 量 相 加 
的 加 法 器 ， 也 可 能 来 自 计 算 当 前 PC 加 4 的 加 法 器 。 图 中 连接 功能 单元 的 粗 线 表示 
总 线 ， 它 由 多 个 信和 号 组 成 。 箭 头 表示 信息 如 何 流动 。 由 于 信和 号 线 可 能 会 交叉 ， 所 以 
在 交叉 信和 号 线 确实 相连 时 用 一 个 黑 点 来 表示 

首先 ， 图 4-1 中 有 许多 这 样 的 位 置 : 两 个 来 自 不 同 源 的 数据 流向 同一 个 单元 。 例 如 ， 写 
入 PC 的 值 可 能 来 自 两 个 加 法 器 中 的 一 个 ， 写 人 寄存 需 堆 的 数据 可 能 来 自 ALU 或 数据 存储 
器 ， 而 ALU 的 第 二 个 输入 可 能 来 自 寄 存 器 或 指令 的 立即 数字 段 。 实 际 上 ， 这 些 数 据 线 不 能 
简单 地 连接 在 一 起 。 我 们 必须 添加 一 种 逻辑 单元 以 从 多 个 数据 源 中 选择 一 个 送 给 目标 单元 。 
这 种 选择 通常 由 称 为 多 选 器 ( multiplexor) 的 设备 来 完成 ， 虽 然 它 可 能 更 合适 被 称 为 数据 选 
择 器 。 附 录 A 详细 描述 了 多 选 器 如 何 根据 控制 信号 从 多 个 输入 中 进行 选择 。 控 制 信号 通常 由 
当前 执行 指令 中 包含 的 信息 决定 。 

图 4-1 忽略 的 第 二 个 内 容 是 ， 一些 功能 单元 的 控制 依赖 于 当前 执行 的 指令 类 型 。 例 如 ， 
数据 存储 器 必须 在 指令 是 load 时 被 读 ， 在 指令 是 store 时 被 写 。 寄 存 右 堆 只 能 在 指令 是 load 
或 算术 逻辑 指令 时 被 写 。 但 是 ，ALU 的 控制 不 依赖 指令 类 型 ， 它 一 定 会 做 某 种 运算 。( 附 录 
A 介 绍 了 ALU 的 详细 设计 。) 与 多 选 器 类 似 ，ALU 的 控制 线 也 根据 指令 的 某 些 字段 来 设置 ， 
进而 控制 ALU 做 哪 种 运算 。 

图 4-2 在 图 4-1 的 基础 上 添加 了 三 个 必要 的 多 选 吉 ， 以 及 主要 功能 单元 的 控制 线 。 图 中 
还 增加 了 一 个 控制 单元 ， 它 以 指令 作为 输入 ， 为 功能 单元 及 两 个 多 选 器 设置 控制 信号 。 图 中 
最 上 面 的 多 选 器 确定 写 人 PC 的 是 PC + 4 还 是 分 支 目标 地 址 ， 在 执行 beq 指令 时 ， 该 多 选 
器 的 控制 信号 由 ALU 进行 比较 时 设置 的 Zero 输出 来 设置 。RISC-V 指令 系统 的 规整 性 和 简 
单 性 使 得 只 需 简 单 的 译 码 过 程 即 可 确定 如 何 设 置 控制 线 。 
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图 4-2 包含 必要 多 选 器 和 控制 线 的 RISC-V 子 集 的 基本 实现 。 最 上 面 的 多 选 器 (“Mux”) 
控制 写 和 人 PC 的 值 (PC + 4 或 分 支 目标 地 址 ) ; 该 多 选 器 由 逻辑 门 控制 ， 该 控制 将 
ALU 的 零 输 出 和 表示 指令 为 分 支 指令 的 控制 信号 进行 “与 ”。 中 间 的 输出 到 寄存 器 
堆 的 多 选 器 用 于 确定 将 ALU 的 输出 〈 算 术 逻 辑 指令 ) 或 数据 存储 器 的 输出 (load 指 
令 ) 写 人 寄存 器 堆 。 最 后 ， 最 下 面 的 多 选 器 用 于 确定 ALU 的 第 二 个 输入 是 来 自 寄存 
器 〈 算 术 逻 辑 指令 或 分 支 指令 ) 还 是 指令 的 偏 移 量 字段 (load 指令 或 store 指令 )。 图 
中 新 增 的 控制 线 确 定 ALU 做 哪 种 运算 、 数 据 存储 器 的 读 写 以 及 寄存 器 堆 的 写 人 等 。 
控制 线 在 图 中 用 灰色 标识 


在 本 章 剩余 部 分 中 ,我 们 将 逐步 改进 图 4-2 并 补充 细节 ， 添 加 更 多 的 功能 单元 以 及 单元 
之 间 的 连接 ， 并 且 改 进 控制 单元 以 控制 不 同类 指令 完成 执行 。4.3 节 和 4.4 节 描 述 了 每 条 指令 
使 用 一 个 时 钟 周期 的 简单 实现 方式 ， 它 遵循 图 4-1 和 图 4-2 的 一 般 形 式 。 在 这 种 设计 中 ， 每 
条 指令 从 一 个 时 钟 边沿 开始 执行 ， 并 在 下 一 个 时 钟 边沿 完成 执行 。 

这 种 方式 虽然 很 容易 理解 ， 但 并 不 实用 ， 因 为 时 钟 周期 必须 设置 为 足够 容纳 执行 时 间 最 长 
的 指令 。 在 实现 了 这 种 简单 的 计算 机 控制 之 后 ， 我 们 将 介绍 流水 线 实现 方式 及 其 复杂 性 和 例外 。 


Instruction 
memory 











人 《 见 本 章 开始 处 的 图 片 ) 中 的 时 几 


4.2 ”逻辑 设计 的 一 般 方法 
在 考虑 计算 机 的 设计 时 ， 需 要 确定 实现 计算 机 的 硬件 逻辑 以 及 这 些 逻 辑 如 何 定时 。 本 节 
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将 回顾 一 些 在 本 章 中 会 广泛 用 到 的 数字 人 逻辑 的 关键 概念 。 如 果 你 的 数字 逻辑 知识 很 少 ， 那 么 
在 阅读 本 节 之 前 先 阅读 附录 A 将 有 所 帮助 。 

RISC-V 实现 中 的 数据 通路 包含 两 种 不 同类 型 的 逻辑 单元 : 处 
理 数 据 值 的 单元 和 存储 状态 的 单元 。 处 理 数据 值 的 单元 是 组 合 逻 辑 ， 
它们 的 输出 仅 依赖 于 当前 输入 。 给 定 相 同 的 输入 ， 组 合 逻 辑 单 元 总 
是 产生 相同 的 输出 。 例 如 ， 图 4-1 和 附录 A 中 讨论 的 ALU 就 是 一 个 
组 合 逻 辑 单元 。 由 于 组 合 逻 辑 单元 没有 内 部 存储 功能 ， 当 给 定 一 组 
输入 时 ， 它 总 是 产生 相同 的 输出 。 

设计 中 的 其 他 单元 不 是 组 合 逻 辑 ， 而 是 包含 状态 的 。 如 果 一 个 单元 有 内 部 存储 功能 ， 它 
就 包含 状态 ， 称 其 为 状态 单元 。 这 是 因为 关机 后 重启 计算 机 ， 通 过 恢复 状态 单元 的 原 值 ， 计 
算 机 可 继续 运行 ， 就 像 没 有 发 生 过 断 电 一 样 。 进 一 步 地 ， 这 些 状态 单元 可 以 完整 地 表征 计算 
机 。 例 如 ， 图 4-1 中 的 指令 存储 器 、 数 据 存储 器 以 及 寄存 器 都 是 状态 单元 。 

一 个 状态 单元 至 少 有 两 个 输入 和 一 个 输出 。 必 需 的 输入 是 要 写 人 状态 单元 的 数据 值 和 
决定 何 时 写 入 数据 值 的 时 钟 信号 。 状 态 单 元 的 输出 提供 了 在 前 一 个 时 钟 周 期 写 入 单元 的 数据 
值 。 例如， 逻辑 上 最 简单 的 一 种 状态 单元 是 DD 触发 器 ( 见 附录 A)， 它 有 两 个 输入 (一 个 数 
据 值 和 一 个 时 钟 ) 和 一 个 输出 。 除 了 触发 器 ，RISC-V 的 实现 中 还 用 到 了 另外 两 种 状态 单元 : 
存储 器 和 寄存 器 。 这 两 种 状态 单元 均 在 图 4-1 中 出 现 过 。 状 态 单 元 何 时 被 写 人 由 时 钟 确定 ， 
但 是 它 随时 可 以 被 读 。 

包含 状态 的 逻辑 部 件 也 被 称 为 时 序 的 ， 因 为 其 输出 取决 于 输入 和 内 部 状态 。 例 如 ， 表 示 
寄存 器 的 功能 单元 的 输出 取决 于 所 提供 的 寄存 器 号 和 之 前 写 人 寄存 器 的 内 容 。 附 录 A 更 详细 
地 讨论 了 组 合 逻辑 单元 和 时 序 逻 辑 单元 的 相关 操作 及 其 结构 。 


时 钟 同步 方法 
时 钟 同步 方法 (clocking methodology) 规定 了 信和 号 可 以 读 出 和 


组 合 逻 辑 单 元 : 一 个 操作 
单元 ， 如 AND 门 或 ALU。 





状态 单元 : 一 个 存储 单元 ， 
如 寄存 器 或 存储 器 。 





时 钟 同 步 方法 : 用 来 确定 





写 入 的 时 间 。 规 定 信和 号 的 读 写 时 间 非 常 重要 ， 因 为 如 果 在 读 信号 的 | 数据 相对 于 时 钟 何 时 稳定 
同时 写 信号 ， 那 么 读 到 的 值 可 能 是 该 信号 的 旧 值 ， 也 可 能 是 新 写 人 | 让 革 的 法 。 

的 值 ， 甚 至 可 能 是 二 者 的 混合 。 计 算 机 设计 无 法 容忍 这 种 不 可 预测 

性 。 时 钟 同步 方法 就 是 为 避免 这 种 情况 而 提出 的 。 人 


态 的 改变 发 生 于 时 钟 边 沿 
为 简单 起 见 ， 假 定 我 们 采用 边沿 触发 的 时 钟 (edge-triggered | 的 机 制 ， 


clocking)， 即 存储 在 时 序 罗 辑 单元 中 的 所 有 值 仅 在 时 钟 边 沿 更 新 ， 
这 是 从 低 电 平 快速 跳 变 到 高 电 平 〈 反 之 亦 然 ) 的 过 程 ( 见 图 4-3 )。 因 为 只 有 状态 单元 能 存储 
数据 值 ， 所 有 组 合 逻辑 单元 都 必须 从 状态 单元 集合 接收 输入 ， 并 将 输出 写 和 状态 单元 集合 。 
其 输入 是 之 前 某 时 钟 周 期 写 人 的 值 ， 输 出 的 值 可 以 在 后 续 时 钟 周期 使 用 。 

图 4-3 描述 了 一 个 组 合 逻辑 单元 及 与 其 相连 的 两 个 状态 单元 。 组 合 逻 辑 单元 的 操作 在 一 
个 时 钟 周期 内 完成 : 所 有 信号 在 一 个 时 钟 周 期 内 从 状态 单元 1 经 组 全 逻辑 单元 到 达 状 态 单元 
2。 信 号 到 达 状 态 单元 2 所 需 的 时 间 决定 了 时 钟 周期 的 长 度 。 

为 简单 起 见 ， 如 果 状 态 单元 在 每 个 有 效 时 钟 边沿 都 进行 写 人 ， | 控制 信号 : 用 来 决定 多 选 
则 可 忽略 写 控制 信号 (control signal) 。 相 反 ， 如 果 状 态 单 元 不 是 在 | 站 半生 吏 和 
每 个 时 钟 边沿 都 更 新 ， 那 么 它 需 要 一 个 写 控制 信号 。 时 钟 信号 和 写 | 相对 应 ， 数 据 信号 包含 
控制 信号 都 是 输入 。 仅 当时 钟 边 沿 到 来 并 且 写 控制 信号 有 效 时 ， 状 | 能 单元 所 操作 的 信息 。 





图 4-3 组 合 逻 辑 、 状 态 单元 和 时 钟 周期 的 关系 。 在 同步 数字 系统 中 ， 时 钟 信号 决定 了 数据 值 
何 时 写 入 状态 单元 。 在 有 效 的 时 钟 边沿 导致 状态 变化 之 前 ， 状 态 单 元 的 所 有 输入 必须 
达到 稳定 (也 就 是 说 ， 状 态 单 元 会 保持 这 个 值 不 变 ， 直 到 时 钟 边沿 到 来 )。 本 章 所 有 
状态 单元 (包括 存储 器 ) 都 假定 为 上 升 沿 触发 ， 即 这 些 信 号 在 时 钟 的 上 升 沿 发 生变 化 


我 们 将 用 术语 有 效 (asserted) 表示 信号 为 逻辑 高 ， 用 使 有 效 表 | 有 效 : 信号 为 远 辑 高 或 真 。 
示 信 和 号 应 为 逻辑 高 ， 用 无 效 或 使 无 效 表 示 信 和 号 为 逻辑 低 。 我 们 使 用 
术语 有 效 和 无 效 ， 是 因为 在 进行 硬件 实现 时 ， 数 字 1 有 时 表示 逻辑 | 无 效 : 信号 为 远 召 人 或 从 
高 ， 有 时 表示 逻辑 低 。 

在 边沿 触发 的 时 钟 同 步 方 法 中 ， 需 在 一 个 时 钟 周期 内 读 出 寄存 器 的 值 ， 并 使 之 经 过 组 合 
逻辑 单元 ， 将 新 值 写 入 该 寄存 器 。 图 4-4 给 出 了 一 个 通用 的 例子 。 选 择 在 时 钟 的 上 升 沿 (从 
低 到 高 ) 还 是 下 降 沿 (从 高 到 低 ) 进行 写 操 作 无 关 紧 要 ， 因 为 组 合 逻辑 的 输入 只 有 在 所 规定 
的 时 钟 边沿 才 可 能 发 生变 化 。 在 本 书 中 ,我 们 选择 在 时 钟 上 升 沿 写 和 人 。 边 沿 触发 的 时 钟 同 步 
在 单个 时 钟 周期 内 不 会 出 现 反馈 ， 图 4-4 中 的 逻辑 可 以 正确 工作 。 在 附录 A 中 , 我 们 简要 讨 
论 了 其 他 的 时 序 约束 (例如 建立 和 保持 时 间 ) 和 时 钟 同步 方法 。 


图 4-4 边沿 触发 的 时 钟 同步 方法 ,支持 状态 单元 在 同一 个 时 钟 周期 内 读 和 写 ， 这 样 不 会 
为 竞争 而 出 现 中 间 数 据 。 当 然 ， 时 钟 周期 必须 足够 长 ， 以 便 在 有 效 时 钟 边沿 de 
输入 值 已 经 稳定 。 由 于 状态 单元 在 时 钟 边沿 更 新 ， 所 以 在 一 个 时 钟 周期 内 不 可 能 出 
现 反馈 。 如 果 有 反馈 ， 这 种 设计 就 不 能 正常 工作 。 我 们 在 本 章 和 下 一 章 的 设计 都 采 
用 边沿 触发 的 时 钟 同步 方法 以 及 如 图 所 示 的 结构 


对 于 64 位 RISC-V 指令 系统 体系 结构 ， 几 乎 所 有 的 状态 单元 和 逻辑 单元 的 输入 和 输出 
都 是 64 位 ， 因为 处 理 器 处 理 的 大 部 分 数据 的 宽度 是 64 位 。 如 果 某 个 单元 的 输入 或 输出 不 是 
64 位 宽 ， 我 们 会 特别 指出 。 图 中 用 粗 线 表示 总 线 ， 即 宽度 为 1 位 以 上 的 信和 号。 有 时 要 把 几 根 
总 线 合 起 来 构成 一 根 更 宽 的 总 线 ， 例 如 ， 将 两 根 32 位 总 线 合 成 一 根 64 位 总 线 。 在 这 种 情况 
下 ,总 线 标注 将 做 出 相应 说 明 。 箭 头 用 以 指明 单元 间 数 据 流 动 的 方向 。 最 后 ， 灰 色 线 表示 的 
控制 信号 将 其 与 数据 信号 区 分 开 来 ， 两 者 的 差别 将 随 本 章 的 进展 越 来 越 明 显 。 








自我 检测 判断 题 ， 由 于 寄存 器 堆 在 同一 个 时 钟 周期 内 肥 要 写 人 又 要 读 出 ， 所 以 任何 边沿 触发 
a ea eg 








| 详细 阐述 还 有 一 种 32 位 版 本 的 RISC-V 指令 系统 ， 其 实现 中 的 大 多 数 通路 都 是 32 位 宽 。 


4.3 ”建立 数据 通路 
设计 数据 通路 的 合理 方法 是 ， 先 分 析 每 类 RISC-V 指令 需要 哪 ”| 数据 通路 单元 一 个 用 来 
些 主要 执行 单元 。 本 节 首 先 讨论 每 条 指令 需要 哪些 数据 通路 单元 | 操作 或 保存 处 理 器 中 数据 
(datapath element)， 然 后 逐渐 降低 抽象 的 层次 。 在 设计 数据 通路 单元 | 2 
的 同时 ， 也 会 设计 它们 的 控制 信和 号。 我们 将 自 底 向 上 地 使 用 蚀 象 的 | 人 志 估 器、 效 据 丰 信 器 、 
思想 对 此 进行 说 明 。 寄存 器 堆 、ALU 和 加 法 器 。 
图 4-5a 所 示 为 需要 的 第 一 个 单元 一 一 存储 单元 ， 用 于 存储 程 | 
序 的 指令 ， 并 根据 给 定 地 址 提供 指令 。 图 4-5b 所 示 为 程序 计数 器 | 守 守 于 委 让 全 
(PC)， 正 如 第 2 章 所 述 ， 它 用 于 保存 当前 指令 的 地 址 。 最 后 还 需要 | 委 存 品 ， 
一 个 加 法 器 来 增加 PC 的 值 以 获得 下 一 条 指令 的 地 址 。 这 个 加 法 器 
是 一 个 组 合 逻 辑 电路 ， 可 由 附录 A 中 描述 的 ALU 实现 ， 只 需 将 其 中 的 控制 信号 设 为 总 是 进 
行 加 法 运算 即 可 。 如 图 4-5c 所 示 ， 给 这 样 的 ALU 加 上 “Add” 标 记 ， 以 表明 它 是 加 法 器 并 
且 不 能 执行 其 他 ALU 操作 。 
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a ) 指令 存储 器 b ) 程序 计数 器 c ) 加 法 器 


图 4-5 存 取 指令 需要 的 两 个 状态 单元 ， 以 及 计算 下 一 条 指令 的 地 址 所 需 的 加 法 器 。 两 个 状 
态 单元 分 别 是 指令 存储 器 和 程序 计数 器 。 因 为 数据 通路 不 会 写 人 指令 ， 所 以 指令 存 
储 器 只 提供 读 访 问 ， 因 此 将 其 视 为 组 合 罗 辑 : 任何 时 刻 的 输出 都 反映 了 输入 地 址 内 
容 的 变化 ， 而 不 需要 读 控 制 信号 。( 在 加 载 程序 时 需要 写 人 指令 存储 器 ; 这 并 不 难 实 
现 ， 所 以 为 简单 起 见 我 们 将 这 个 步骤 忽略 。) 程序 计数 器 是 一 个 64 位 寄存 器 ， 它 在 
每 个 时 钟 周期 结束 时 会 被 写 人 ， 所 以 不 需要 写 控制 信号 。 加 法 器 是 一 个 ALU， 它 计 
算 两 个 64 位 输入 的 加 法 ， 并 输出 结果 


要 执行 任意 一 条 指令 ， 首 先 要 从 存储 器 中 取出 指令 。 为 准备 执行 下 一 条 指令 ， 必 须 增 加 
程序 计数 器 的 值 ， 使 其 指向 下 一 条 指令 ， 即 向 后 移动 4 个 字 节 。 图 4-6 所 示 为 数据 通路 ， 它 
将 图 4-5 中 的 三 个 单元 组 合 起 来 ， 可 以 取出 指令 并 增加 PC 以 获得 下 一 条 指令 的 地 址 。 

现在 考虑 R 型 指令 ( 见 图 2-19 )。 这 类 指令 读 两 个 寄存 器 ， 对 它们 的 内 容 执行 ALU 操 
作 ， 再 将 结果 写 回 寄存 器 。 这 些 指令 被 称 为 R 型 指令 或 算术 逻辑 指令 (因为 它们 执行 算术 或 
逻辑 运算 ) 。 这 类 指令 包括 第 2 章 介绍 的 add、sub、and 和 or 指令 。 回 想 一 下 ， 此 类 指令 
的 典型 实例 是 add xl ，x2，x3， 它 读 取 寄 存 器 x2 和 x3 并 将 总 和 写 入 x1 寄存 器 。 

处 理 器 的 32 个 通用 寄存 器 位 于 被 称 为 寄存 器 堆 的 结构 中 。 寄 存 WE 
器 堆 是 寄存 器 的 集合 ， 其 中 的 寄存 器 可 以 通过 指定 相应 的 寄存 器 号 | 器 的 状态 单元 ， 可 通过 所 
来 进行 读 写 。 寄 存 器 堆 包 含 了 计算 机 的 寄存 器 状态 。 另 外 ， 还 需要 | 提供 的 寄存 器 号 进行 读 写 。 
一 个 ALU 对 从 寄存 器 读 出 的 值 进行 运算 。 
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图 4-6 用 于 取出 指令 并 增加 程序 计数 器 的 部 分 数据 通路 。 取 出 的 指令 供 数据 通路 的 其 他 部 
分 使 用 


由 于 及 型 指令 有 三 个 寄存 器 操作 数 ， 每 条 指令 需要 从 寄存 器 堆 中 读 出 两 个 数据 字 ， 再 写 
入 一 个 数据 字 。 为 读 出 一 个 数据 字 ， 需 要 一 个 输入 指定 要 读 的 寄存 器 号 ， 以 及 一 个 从 寄存 器 
堆 读 出 的 输出 。 为 写 人 一 个 数据 字 ， 寄 存 器 堆 需 要 两 个 输入 : 一 个 输入 指定 要 写 的 寄存 器 号 ， 
另 一 个 提供 要 写 人 寄存 器 的 数据 。 寄 存 器 堆 根 据 输入 的 寄存 器 号 输出 相应 寄存 器 的 内 容 。 而 
写 操作 由 写 控制 信号 控制 ， 在 写 操作 发 生 的 时 钟 边 沿 ， 写 控制 信号 必须 是 有 效 的 。 如 图 4-7 
所 示 ， 我 们 总 共 需 要 四 个 输入 (三 个 寄存 器 编号 和 一 个 数据 ) 和 两 个 输出 (两 个 数据 )。 输 入 
的 寄存 器 号 为 5 位 宽 ， 用 于 指定 32 个 寄存 器 (32 = 25 ) 中 的 一 个 ， 而 数据 输入 总 线 和 两 个 
数据 输出 总 线 均 为 64 位 宽 。 
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图 4-7 实现 R 型 指令 的 ALU 操作 需要 的 两 个 单元 是 寄存 器 堆 和 ALU。 寄 存 器 堆 包 括 了 所 
有 的 寄存 器 ， 有 两 个 读 端口 和 一 个 写 端口 。 附 录 A 的 A.8 节 讨 论 了 多 端口 寄存 器 堆 
的 设计 。 寄 存 器 堆 的 读 输出 总 是 对 应 于 要 读 的 寄存 器 号 ， 不 需要 其 他 的 控制 信号 。 
但 是 写 寄存 器 必须 明确 地 使 写 控制 信号 有 效 。 请 注意 写 操作 是 边沿 触发 的 ， 因 此 所 
有 的 写 输入 ( 即 要 写 人 的 值 、 寄 存 器 编号 和 写 控制 信和 号) 必须 在 时 钟 边沿 有 效 。 由 
于 写 寄存 器 堆 是 边沿 触发 的 ， 因 此 可 以 在 一 个 时 钟 周期 内 读 写 同一 个 寄存 器 : 读 操 
作 将 读 出 以 前 所 写 入 的 内 容 ， 而 写 入 的 内 容 在 下 一 时 钟 周期 才 可 读 。 输 入 的 寄存 器 
编号 为 5 位 宽 ， 数 据 线 为 64 位 宽 。ALU 采用 附录 A 中 的 设计 ，ALU 操作 由 4 位 宽 
的 ALU 操作 信号 控制 。 使 用 ALU 的 零 检 测 输 出 信号 来 实现 条 件 分 支 指令 


Data 





图 4-7b 所 示 为 ALU， 它 读 取 两 个 64 位 输入 并 产生 一 个 64 位 输出 ， 还 有 一 个 1 位 输 
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出 指示 其 结果 是 否 为 0。 附 录 A 中 详细 描述 了 ALU 的 4 位 控制 信号 ; 在 需要 了 解 如 何 设置 


ALU 控制 信号 时 ， 将 进行 简要 的 回顾 。 


下 面 考虑 RISC-V 的 存 取 指 令 ， 其 一 般 形 式 为 1d x1, offset(x2) 或 sd xl， 
offset(x2)。 这 类 指令 通过 将 基 址 寄存 器 x2 与 指令 中 包含 的 12 位 有 符号 偏 移 量 相 加 ， 
得 到 存储 器 地 址 。 对 于 存储 指令 ， 从 寄存 器 xl 中 读 出 要 存储 的 数据 。 如 果 是 载 入 指令 ， 那 
么 从 存储 器 中 读 出 的 数据 要 写 人 指定 的 寄存 器 xl 中 。 因 此 ， 图 4-7 中 的 寄存 右 堆 和 ALU 都 


会 被 用 到 。 

此 外 ,还 需要 一 个 单元 将 指令 中 的 12 位 偏 移 量 符号 扩展 ( sign- 
extend) 为 64 位 有 符号 数 ， 以 及 一 个 执行 读 写 操作 的 数据 存储 单元 。 
数据 存储 单元 在 存储 指令 时 被 写 入 ， 所 以 它 有 读 写 控制 信号 、 地 址 
输入 和 写 和 人 存储 器 的 数据 输入 。 图 4-8 给 出 了 这 两 个 单元 。 


MemWrite 





a ) 数据 存储 单元 b ) 立即 数 生成 单元 


图 4-8 除 图 4-7 的 寄存 器 堆 和 ALU 外 ， 实 现存 储 指令 和 载 和 指令 还 需要 两 个 单元 : 数据 存 
储 单元 和 立即 数 生 成 单元 。 数 据 存储 单元 是 一 个 状态 单元 ， 它 有 地 址 输入 和 写 数 据 输 
入 ， 以 及 读 取 结 果 的 单个 输出 。 读 、 写 控制 信号 相互 独立 ， 但 仅 有 一 个 可 以 在 任意 给 
定 的 时 钟 上 有 效 。 数 据 存储 单元 需要 一 个 读 信号 ， 因 为 它 与 寄存 器 堆 不 同 ， 读 取 无 效 
地 址 处 的 值 可 能 会 导致 问题 ， 第 5 章 中 将 看 到 这 种 情况 。 立 即 数 生 成 单元 ( ImmGen) 
有 一 个 32 位 指令 的 输入 ， 如 果 是 载 人 人、 存储 和 分 支 条 件 成 立时 的 分 支 指令 ， 它 将 指 
令 中 的 一 个 12 位 字段 符号 扩展 为 64 位 结果 输出 ( 见 第 2 章 )。 假 定数 据 存 储 单元 的 
写 是 边沿 触发 的 。 标 准 的 存储 芯片 实际 上 有 一 个 用 于 写 操作 的 写 使 能 信号 。 尽 管 标准 
存储 器 芯片 的 写 使 能 信号 不 是 边沿 触发 的 ， 但 我 们 的 边沿 触发 设计 很 容易 适用 于 真正 
的 存储 器 芯片 。 关 于 实际 存储 器 芯片 工作 细节 的 更 多 讨论 见 附录 A 的 A.8 节 


beq 指令 有 三 个 操作 数 ， 其 中 两 个 寄存 器 用 于 比较 是 否 相 等 ， 
另 一 个 是 12 位 偏 移 量 ， 用 于 计算 相对 于 分 支 指令 所 在 地 址 的 分 支 
目标 地 址 (branch target address)。 它 的 指令 格式 是 beq x1，x2 ， 
offset。 为 实现 beq 指令 ， 需 将 PC 值 与 符号 扩展 后 的 指令 偏 移 
量 相 加 以 得 到 分 支 目 标 地 址 。 分 支 指令 的 定义 ( 见 第 2 章 ) 中 有 两 个 
必须 注意 的 细节 : 

e 指令 系统 体系 结构 规定 了 计算 分 支 目标 地 址 的 基 址 是 分 支 指 

令 所 在 地 址 。 


符号 扩展 : 为 增加 数据 的 长 
度 ， 将 原 数据 的 最 高 位 复 
制 到 新 数据 多 出 来 的 高 位 。 


分 支 目标 地 址 ; 分 支 指 
令 中 指定 的 地 址 ， 如 果 
分 支 发 生 ， 该 地 址 成 为 新 
的 程序 计数 器 的 值 。 在 
RISC-V 体 系 结构 中 ， 分 
支 目 标 地 址 为 该 指令 的 偏 
移 量 字段 与 分 支 指令 所 在 
地 址 的 和 。 


。 指令 系统 体系 结构 还 说 明了 计算 分 支 目 标 地 址 时 ， 将 偏 移 量 左 移 1 位 以 表示 半 字 为 单 


位 的 偏 移 量 ， 这 样 偏 移 量 的 有 效 范围 就 扩大 到 2 倍 。 
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为 了 处 理 这 种 复杂 情况 ， 需 要 将 偏 移 量 左 移 1 位 。 

在 计算 分 支 目 标 地 址 的 同时 ， 必 须 确定 是 顺序 执行 下 一 条 指令 ， 
还 是 执行 分 支 目 标 地 址 处 的 指令 。 当 分 支 条 件 为 真 (例如 ， 两 个 操 
作 数 相等 ) 时 ,分 支 目 标 地 址 成 为 新 的 PC， 我 们 就 说 分 支 发 生 。 如 
果 条 件 不 成 立 ， 自 增 后 的 PC 成 为 新 的 PC (就 像 其 他 普通 指令 一 样 ); 
这 时 就 说 分 支 未 发 生 。 

因此 ， 分 支 指令 的 数据 通路 需要 执行 两 个 操作 : 计算 分 文 目 标 地 
址 和 检测 分 支 条 件 。( 很 快 将 讲 到 ， 分 支 指令 也 会 影响 数据 通路 的 取 
指 部 分 。) 图 4-9 为 分 支 指令 的 数据 通路 。 为 计算 分 支 目 标 地 址 ， 分 支 
指令 数据 通路 包含 一 个 图 4-8 所 示 的 立即 数 生成 单元 和 一 个 加 法 顺 。 


分 支 发 生 : 一 种 分 支 指令 ， 
其 分 支 条 件 满 足 ， 程 序 计 
数 器 变 为 分 支 目 标 地 址 
所 有 无 条 件 分 支 指 令 都 是 
发 生 的 分 支 。 


分 支 未 发 生 : 一 种 分 支 指 
令 ， 其 分 支 条 件 不 成 立 ， 
程序 计数 器 变 为 分 支 指令 
的 下 一 条 指令 的 地 址 。 


为 执行 比较 ， 需 要 图 4-7a 所 示 的 寄存 器 堆 提供 两 个 寄存 器 操作 数 (不 需要 写 入 寄存 器 堆 )。 此 
外 ， 使 用 附录 A 中 的 ALU 完成 相等 性 比较 。 由 于 该 ALU 提供 一 个 表示 结果 是 否 为 0 的 输出 
信号 ， 故 可 将 两 个 寄存 器 操作 数 发 给 ALU， 并 将 控制 设置 为 减法 。 如 果 ALU 输出 的 零 信 号 有 
效 ， 可 知 两 个 寄存 器 值 相 等 。 尽 管 零 输 出 信号 总 是 指示 结果 是 否 为 0， 但 我 们 仅 用 它 来 实现 条 
件 分 支 指令 的 相等 测试 。 稍 后 将 详细 地 介绍 如 何 为 数据 通路 中 的 ALU 连接 控制 信号 。 
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图 4-9 ”分支 指令 数据 通路 使 用 ALU 检测 分 支 条 件 是 否 成 立 ， 并 使 用 单独 的 加 法 器 将 PC 和 
符号 扩展 后 左 移 一 位 的 指令 中 的 12 位 (分 支 偏 移 量 ) 相 加 ， 以 得 到 分 支 目标 地 址 。 
标记 Shift left 1 的 单元 只 是 输入 到 输出 之 间 一 条 简单 的 数据 通路 ， 它 给 符号 扩展 后 
的 偏 移 量 的 低位 加 上 一 个 0; ; 因为 “移动 ”的 距离 是 固定 的 ， 所 以 并 不 需要 真正 的 
移 位 电路 。 由 于 我 们 知道 偏 移 量 是 从 12 位 扩展 而 来 的 ， 所 以 移 位 只 丢弃 “符号 位 ”。 
控制 逻辑 根据 ALU 的 零 输出 信号 来 决定 用 自 增 的 PC 还 是 分 支 目标 地 址 取代 当前 PC 


分 支 指令 将 指令 中 的 12 位 偏 移 量 左 移 一 位 与 PC 相 加 。 如 第 2 章 所 述 ， 移 位 通过 简单 


地 给 偏 移 量 后 面 加 上 一 个 0 实现 。 
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建立 一 个 简单 的 数据 通路 


我 们 已 经 分 别 讨论 了 几 类 指令 需要 的 数据 通路 单元 ， 现 在 可 将 它们 组 合成 一 个 完整 的 数 
据 通路 并 添加 控制 信号 以 完成 实现 。 这 个 最 简单 的 数据 通路 在 每 个 时 钟 周期 执行 一 条 指令 。 
这 意味 着 每 条 指令 在 执行 过 程 中 的 任何 数据 通路 单元 都 只 能 使 用 一 次 ， 如 果 需 要 多 次 使 用 某 
数据 通路 单元 ， 则 要 将 其 复制 多 份 。 因 此 ， 需 要 一 个 指令 存储 器 和 一 个 与 之 分 开 的 数据 存储 
器 。 尽 管 还 有 一 些 功能 单元 需要 多 份 ， 但 很 多 功能 单元 可 以 在 不 同 的 指令 流动 中 被 共享 。 

为 在 两 个 不 同类 指令 之 间 共 享 数 据 通 路 单元 ， 需 要 允许 一 个 单元 有 多 个 输入 ,我 们 用 多 
路 选择 器 和 控制 信号 在 多 个 输入 中 进行 选择 。 


| 例题 | 建立 数据 通路 。 
算术 逻辑 (或 R 型 ) 指令 和 存储 类 指令 的 数据 通路 非常 相似 。 它 们 的 主要 区 别 如 下 : 
e 算术 逻辑 指令 使 用 ALU 时 ,输入 ALU 的 数据 来 自 两 个 寄存 器 。 存 储 类 指令 也 使 用 
ALU 进行 地 址 计算 ,但 是 第 二 个 输入 是 对 指令 中 12 位 偏 移 量 进行 符号 扩展 后 的 值 。 
e 存 人 目标 寄存 器 的 值 来 自 ALU (R 型 指令 ) 或 存储 器 ( 载 人 指令 )。 
为 存储 类 指令 和 算术 逻辑 指令 的 操作 部 分 建立 数据 通路 ， 只 能 使 用 一 个 寄存 器 堆 和 一 个 
ALU， 并 添加 必要 的 多 路 选择 需 。 
| 答案 | 为 建立 只 有 一 个 寄存 器 堆 和 一 个 ALU 的 数据 通路 ， 需 支持 ALU 的 第 二 个 输入 和 要 
存 人 寄存 器 堆 的 数据 都 有 两 个 不 同 的 来 源 。 因 此 ,在 ALU 的 输入 端 和 寄存 器 堆 的 数据 输入 
端 分 别 添加 一 个 多 路 选择 器 。 图 4-10 给 出 了 组 合 后 的 数据 通路 。 
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图 4-10 存储 类 指令 和 R 型 指令 的 数据 通路 。 这 个 例子 展示 了 如 何 通过 添加 多 路 选择 器 把 
图 4-7 和 图 4-8 中 的 部 分 组 合 为 一 个 数据 通路 。 如 上 所 述 ， 增 加 了 两 个 多 路 选择 器 


一 一直 





现在 ， 把 取 指令 数据 通路 (图 4-6)、R 型 指令 和 存储 类 指令 数据 通路 (图 4-10)、 分 
支 指令 数据 通路 (图 4-9) 合并 ,得 到 RISC-V 指令 系统 核心 集 的 一 个 简单 数据 通路 ， 如 
图 4-11 所 示 。 由 于 分 支 指令 使 用 主 ALU 来 比较 两 个 寄存 器 操作 数 是 否 相 等 ， 所 以 要 保留 
图 4-9 中 的 计算 分 支 目 标 地 址 的 加 法 器 。 增 加 一 个 多 路 选择 器 ， 用 于 选择 是 将 顺序 的 指令 地 












Read 
register 1 Read 
Read data 1 
register 2 

Write Registers Read 
register data 2 






MemWrite 
MemtoReg 












Instruction 







Instruction 
memory 








Write 
data 











Write ”Data 
data memory 





图 4-11 组 合 不 同类 指令 所 需 的 功能 单元 形成 的 RISC-V 指令 系统 核心 集 的 简单 数据 通路 。 
图 中 的 单元 来 自 图 4-6、 图 4-9 和 图 4-10。 该 数据 通路 可 以 在 一 个 时 钟 周期 内 执行 
基本 指令 ( 载 人 -存储 寄存 器 、ALU 操作 和 分 支 )。 为 支持 分 支 指令 还 增加 了 一 个 
额外 的 多 路 选择 器 


现在 已 经 完成 了 这 个 简单 的 数据 通路 ， 我 们 可 以 添加 控制 单元 。 控 制 单元 必须 能 够 接受 
输入 并 生成 每 个 状态 单元 的 写 信号 、 每 个 多 选 器 的 选择 信号 和 ALU 的 控制 信号 。 由 于 ALU 
控制 信号 与 其 他 控制 很 不 一 样 ， 因 此 在 设计 控制 单元 的 其 他 部 分 之 前 先 设 计 ALU 控制 信和 号。 

暗 纲 国 壕 | 立即 数 生成 座 辑 选择 指令 中 要 进行 符号 扩展 的 12 位 字段 : 载 入 指令 的 31:20 
位 、 存 储 指令 的 31:25 和 11:7 位 、 分 支 指令 的 31、7、30:25 和 11:8 位 。 由 于 输入 是 完整 的 
32 位 指令 ， 因 此 可 以 使 用 指令 的 操作 码 位 选择 合适 的 字段 。RISC-V 操作 码 的 第 6 位 在 数据 
传输 指令 中 为 0， 且 在 分 支 指令 中 为 1 ; RISC-V 操作 码 的 第 5 位 在 载 入 指令 中 为 0， 且 在 存 
储 指 令 中 为 1。 这样， 操作 码 的 第 5 和 6 位 可 以 控制 立即 数 生成 逻辑 内 的 一 个 3:1 多 路 选择 
器 的 输出 ， 为 载 入 、 存 储 和 条 件 分 支 指令 选择 合适 的 12 位 字段 。 











时 项 是 E 确 的 ? 参考 图 410 | 
没 轩 为 将 丰 信和 中 的 数据 发 关 至 条 存 内。 
设 和 为 将 正确 的 目标 在 吕 的 名 所 发汗 在 吕 夫 - 








RISC 中 人 与 灼 格式 是 


bb. 使 用 独立 的 存储 器 会 比较 便宜 。 





所 要 下 的 在线。 
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c. 处 理 器 在 一 个 周期 内 只 能 操作 每 个 部 件 一 次 ， 而 在 一 个 周期 内 不 可 能 对 一 个 it 存 
储 器 进行 两 次 存 取 。 


4.4 ”一 个 简单 的 实现 方案 

在 本 节 中 ， 我们 学 习 RISC-V 子 集 的 一 种 简单 实现 。 这 个 简单 实现 使 用 上 一 节 中 的 数 
据 通路 并 增加 一 个 简单 的 控制 单元 来 完成 。 它 实现 了 指令 sd、beq 以 及 算术 逻辑 指令 
add、sub、and 和 or。 
4.4.1 ALU 控制 

附录 A 中 的 RISC-V ALU 定义 了 四 根 输入 控制 线 的 以 下 四 种 组 合 : 


ALU 控 制 线 


ee， 























0000 AND 

| 0001 OR 

下 0010 add 
0110 subtract 





根据 不 同 的 指令 类 型 ，ALU 需 执行 以 上 四 种 功能 中 的 一 种 。 对 于 load 和 store 指令 ， 
ALU 做 加 法 计算 存储 器 地 址 。 对 于 了 及 型 指令 ， 根 据 指令 的 7 位 funct7 字段 (位 31:25) 和 3 
位 funct3 字段 (位 14:12 )( 参 见 第 2 章 ), ALU 需 执 行 四 种 操作 (与 、 或 、 加 、 减 ) 中 的 一 种 。 
对 于 条 件 分 支 指令 ，ALU 将 两 个 操作 数 做 减法 并 检测 结果 是 否 为 0。 

4 位 ALU 的 输入 控制 信号 可 由 一 个 小 型 控制 单元 产生 ， 其 输入 是 指令 的 funct7 和 
funct3 字段 以 及 2 位 的 ALUOp 字段 。ALUOp 指明 要 执行 的 操作 是 load 和 store 指令 要 做 的 
加 法 (00; )， 还 是 beq 指令 要 做 的 减法 并 检测 是 否 为 0 (01: )， 或 是 由 funct7 和 funct3 字段 
决定 ( 10; )。 该 控制 单元 输出 一 个 4 位 信号 ， 即 前 面 介绍 的 4 位 组 合 之 一 来 直接 控制 ALU。 

图 4-12 说 明 如 何 根据 指令 中 的 2 位 ALUOp 控制 字段 、funct7 和 funct3 字段 设置 ALU 
的 输入 控制 信号 。 在 本 章 的 后 面 将 看 到 主 控制 单元 如 何 生成 ALUOp。 


人 扫 作 maTR 


























load doubleword add 0010 
sd 00 | store doubleword XXXXXXX | XXX add 0010 
beq 01 branch if equal XXXXXXX XXX subtract 0110 
R-type 10 add 0000000 000 add 0010 
Rtype 10 |sub 0100000 000 subtract 0110 
R-type 10 and 0000000 411 AND 0000 
R-type 10 or 0000000 410 OR 0001 


























图 4-12 根据 ALUOp 控制 位 和 R 型 指令 的 操作 码 设置 ALU 的 控制 信号 。 第 一 列 是 指令 ， 
它 决定 了 ALUOp 位 。 所 有 的 编码 都 以 二 进 制 给 出 。 注 意 ， 当 ALUOPp 为 00; 或 01， 
时 ，ALU 操作 不 依赖 于 funct7 或 funct3 字段 ; 在 这 种 情况 下 ,“ 不 关心 ”操作 码 的 
值 ， 所 以 将 其 记 为 一 串 X。 当 ALUOp 为 10 时 ， 根 据 funct7 和 funct3 字段 来 设置 
ALU 的 输入 控制 信号 。 见 附录 A 


这 种 多 级 译 码 的 方式 一 一 主 控制 单元 生成 ALUOp 位 用 作 ALU 的 输入 控制 信号 ， 再 生 
成 实际 信和 号 来 控制 ALU 一 一 是 一 种 常见 的 实现 方式 。 多 级 控制 可 以 减 小 主 控制 单元 的 规模 。 
多 个 小 的 控制 单元 可 能 潜在 地 减 小 控制 单元 的 延迟 。 这 样 的 优化 很 重要 ， 因 为 控制 单元 的 延 
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述 是 决定 时 钟 周期 的 关键 因素 。 

有 几 种 不 同 的 方法 把 2 位 ALUOp 字段 和 funct 字段 映射 到 四 位 ALU 输入 控制 信号 。 由 
于 只 有 少数 funct 字段 有 意义 ， 并 且 仅 在 ALUOp 位 等 于 10; 时 才 使 用 funct 字段 ， 因 此 可 以 
使 用 一 个 小 逻辑 单元 来 识别 可 能 的 取 值 并 生成 恰当 的 ALU 控制 信号 。 

为 设计 这 个 逻辑 单元 ， 有 必要 为 funct 字段 和 ALUOp 信号 的 有 意义 组 合生 成 一 张 真 值 
表 (truth table)， 如 图 4-13 所 示 ， 该 表 给 出 了 如 何 根据 这 些 输入 字 EN 
段 设置 4 位 ALU 输入 控制 信号 。 由 于 完整 真 值 表 非 常 大 ， 我们 并 不 | 表示 方法 ， 即 列 出 输入 的 
关心 所 有 的 输入 组 合 ， 所 以 只 列 出 了 使 ALU 控制 信号 有 值 的 部 分 表 | 所 有 情况 和 每 种 情况 下 的 
项 。 在 本 章 中 ， 我 们 将 一 直 采 用 这 种 方式 列 出 真 值 表 。( 这 样 做 的 缺 | 输出 。 

点 在 附录 C 的 C.2 节 讨 论 。) 




















ALUOp funct7 字 段 funct3 字 段 培 作 
ALUOp1| ALUOpO| 131 | I[30] | if29] | tf28] | If27] | tf26] | i[25] | 414] | If13] | I[12] 
0 0 x x x x x 汉 | 泌 to X06 
x 1 x x x x x x "i 
1 x 0 0 0 0 0 0 0 | 6 | | 0010 
于 X 0 0 0 0 0 Go | Td 0110 
1 x 0 0 0 0 0 0 0 | 0000 
上 X 0 0 0 0 0 0 0 | | 用 0001 









































图 4-13 4 位 ALU 控制 信号 ( 称 为 操作 ) 的 真 值 表 。 输 入 是 ALUOp 和 funct 字段 。 仅 示 出 使 
得 ALU 控制 信号 有 效 的 条 目 ， 也 包括 一 些 无 关 项 。 例 如 ，ALUOp 不 使 用 11; 编码 ， 
因此 真 值 表 包含 条 目 1X* 和 Xl; 项 ， 而 不 是 10; 和 01 项。 尽管 funct 字段 的 10 位 
全 部 示 出 ， 但 注意 ， 对 于 四 类 R 型 指令 而 言 ， 取 值 不 同 的 只 有 30、14、13 和 12 位 。 
因此 ， 只 需要 将 这 四 位 作为 ALU 控制 的 输入 ， 而 不 是 funct 字段 的 全 部 10 位 


因为 在 很 多 情况 下 不 关心 某 些 输入 的 取 值 ， 为 了 简化 真 值 表 ， | 无 关 项 : 远 辑 函数 的 一 个 
我 们 也 列 出 无 关 项 。 真 值 表 中 的 无 关 项 (在 输入 列 中 用 XX 表 示 ) 表 | 元素， 输出 与 所 有 输入 的 
明 输出 不 依赖 于 与 该 列 对 应 的 输入 。 例 如 ， 当 ALUOp 位 为 00; 时 ac 
(如 图 4-13 的 第 一 行 )，ALU 控制 信号 总 被 设置 为 0010:， 而 与 funct 
字段 无 关 。 在 这 种 情况 下 ， 真 值 表 中 此 行 的 funct 即 为 无 关 项 。 稍 后 将 看 到 另 一 个 无 关 项 的 
例子 。 如 果 不 熟悉 无 关 项 的 概念 ， 参 见 附录 A 以 了 解 更 多 信息 。 

真 值 表 构 建 好 后 ， 可 对 其 进行 优化 并 转化 为 门 电路 。 这 个 过 程 是 完全 机 械 的 。 所 以 ， 将 
在 附录 C 的 C.2 节 中 描述 此 过 程 和 结果 。 


4.4.2 设计 主 控制 单元 


我 们 已 经 描述 了 如 何 使 用 操作 码 和 2 位 信号 作为 输入 进行 ALU 控制 单元 的 设计 ， 现 在 
考虑 控制 的 其 他 部 分 。 在 开始 之 前 ， 首 先 看 一 条 指令 的 各 个 字段 和 图 4-11 的 数据 通路 所 需 
的 控制 信号 。 为 了 理解 如 何 将 指令 的 各 个 字段 与 数据 通路 相连 ， 需 回顾 四 类 指令 的 格式 : 算 
术 、 载 入、 存储 和 条 件 分 支 指令 。 见 图 4-14。 

RISC-V 的 指令 格式 遵循 以 下 规则 : 

e 正如 第 2 章 所 述 ， 操 作 码 字段 总 是 0 一 6 位 (opcode[6:0] )。 | 操作 码 : 表示 指令 操作 和 格 

根据 操作 码 ，funct3 字段 (opcode[14:12]) 和 fnnct7 字段 | 式 的 字段 。 
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(opcode [31:25]) 作为 扩展 的 操作 码 字段 。 

。 对 于 R 型 指令 和 分 支 指令 ， 第 一 个 寄存 带 操 作 数 始终 在 15 ~ 19 位 (opcode [19:15] 
rsl )。 该 字段 也 可 用 来 定义 载 人 和 存储 指令 的 基 址 寄存 器 。 

e 对 于 R 型 指令 和 分 支 指令 ， 第 二 个 寄存 器 操作 数 始终 在 20 ~ 24 位 (opcode [24:20] 
rs2 )。 该 字段 也 可 用 来 定义 存储 指令 中 的 寄存 右 ， 该 寄存 器 保存 了 写 入 存储 屁 的 操作 数 。 

e 对 于 分 支 指令 、 载 人 指令 和 存储 指令 ， 男 一 个 操作 数 可 以 是 12 位 立即 数 。 

e 对 于 R 型 指令 和 载 入 指令， 目标 寄存 器 始终 在 7 一 11 位 (opcode [11:7] rd)。 

















名 和 
(位 的 位 置 ) | 3125 aa 

(a) R 型 funct7 医 rs2 rs1 funct3 rd | opcode 

(b) | 型 immediate[11:0] | rs1i funct3 rd opcode 








(c) S 型 immed[11:5] rs2 rs1 | funct3 | immed[4:0] | opcode 
(d) SB 型 immed[12,10:5] rs2 rsi | funct3 immed[4:1,11] opcode 


图 4-14 四 类 指令 (算术 、 载 人 、 存 储 和 条 件 分 支 ) 使 用 的 四 类 不 同 的 指令 格式 。(a) R 型 
算术 指令 (操作 码 = 511o )。 寄 存 器 操作 数 有 三 个 : rsl1 、rs2 和 rd。 字段 rs1 和 Ts2 
是 源 寄存 器 ，rd 是 目标 寄存 器 。funct3 和 funct7 字段 指示 ALU 功能 ， 并 由 之 前 设 
计 的 ALU 控制 单元 进行 译 码 。 我 们 需要 实现 的 R 型 指令 有 add、sub、and 和 
or。(b) 工 型 载 人 指令 (操作 码 = 3io)。 寄 存 器 rsl 是 基 址 寄存 器 ， 它 与 12 位 立即 
数字 段 相 加 得 到 存储 器 地 址 。 字 段 rd 是 目标 寄存 器 ， 它 存放 从 存储 器 中 读 出 的 值 。 
(c) S 型 存储 指令 (操作 码 = 351o )。 寄 存 器 rsl 是 基 址 寄存 器 ， 与 12 位 立即 数字 
段 相 加 得 到 存储 器 地 址 (立即 数字 段 在 指令 编码 中 被 分 成 7 位 和 5 位 两 部 分 )。 字 
段 rs2 是 源 寄 存 器 ， 它 的 值 应 存 人 存储 器 中 。( d) SB 型 条 件 分 支 指令 (操作 码 = 
99io )。 寄 存 器 rsl 和 rs2 进行 比较 。 将 12 位 立即 数 地 址 字段 进行 符号 扩展 ， 再 左 
移 1 位， 与 PC 相 加 得 到 分 支 目标 地 址 


从 第 2 章 得 到 的 第 一 个 设计 原则 简单 源 于 规整 一 一 在 这 里 就 得 到 了 印证 。 

根据 这 些 信息 ， 可 为 简单 的 数据 通路 添加 指令 标记 ， 图 4-15 给 出 了 这 些 增加 的 单元 和 
ALU 控制 模块 、 状 态 单 元 的 写 信号 、 数 据 存储 器 的 读 信 号 以 及 多 路 选择 器 的 控制 信号 。 由 于 
所 有 多 路 选择 器 都 有 两 个 输入 ， 每 个 多 路 选择 器 都 需要 一 条 单独 的 控制 线 。 

图 4-15 给 出 了 6 根 1 位 控制 线 和 2 位 ALUOp 控制 信号 。 我 们 已 经 定义 了 ALUOp 控制 
言 号 如 何 工 作 ， 在 确定 指令 执行 过 程 中 如 何 设 置 这 些 控制 信号 之 前 ， 应 先 非 正 式 地 定义 其 他 
六 个 控制 信号 如 何 工 作 。 图 4-16 描述 了 这 6 根 控制 线 的 功能 。 

我 们 已 经 了 解 各 个 控制 信号 的 功能 ， 再 来 看 看 它们 如 何 设 置 。 除 PCSrc 控制 信号 外 ， 所 
有 的 控制 信号 可 由 控制 单元 仅 根据 指令 的 操作 码 和 funct 字段 设置 。 PCSrc 控制 线 是 例外 。 
若 指 令 是 branch if equal (由 控制 单元 确定 ) 并 且 做 相等 检测 的 ALU 的 零 输出 有 效 ， 那 么 
PCSrc 控制 信号 有 效 。 为 生成 PCSrc 信号 ， 需 要 将 来 自控 制 单元 ( 称 为 “Branch”) 的 信号 
与 来 自 ALU 的 零 输出 信号 相 “ 与 ”。 

这 8 个 控制 信号 (图 4-16 中 的 6 个 和 ALUOp 中 的 2 个 ) 可 根据 控制 单元 的 输入 信号 




















es 人 汉 








( 即 操作 码 的 6 : 0 位 ) 进行 设置 。 图 4-17 给 出 了 包含 控制 单元 和 控制 信号 的 数据 通路 。 
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MemRead 


图 4-15 为 图 4-11 数据 通路 图 添加 了 所 有 必要 的 多 路 选择 器 ， 并 标识 了 所 有 控制 线 。 控 制 
线 以 灰色 示 出 。 也 添加 了 ALU 控制 块 ， 它 取决 于 funct3 字段 和 部 分 funct7 字段 。 
PC 不 需要 写 控制 信号 ， 因 为 它 在 每 个 时 钟 周期 结束 时 被 写 和 一次; 分支 控 制 迎 辑 
确定 PC 是 自 增 的 PC 还 是 分 支 目标 地 址 





无 效 时 的 效果 ( 置 0 ) 有 效 时 的 效果 ( 置 1 ) 
RegWrite 者 被 写 的 寄存 器 号 来 自 Write register 信 号 的 输 


入 ， 数 据 来 自 Write data 信 号 的 输入 





第 二 个 ALU 操 作 数 来 自 第 二 个 寄存 器 be, 入 禾 号 
ALUSrc 堆 的 输出 ( 即 Read data 2 信号 的 输出 ) 第 二 个 ALU 操 作 数 是 指令 的 低 12 位 符号 扩展 


| “PC 信和 被 adder 的 输出 所 替换 ， 即 PC+ 
PCSrc 4 的 值 





PC 值 被 adder 的 输出 所 替换 ， 即 分 支 目标 























读 地 址 由 Address 信 号 的 输入 指定 ， 输 出 到 
Memitead | “| Read data 信 号 的 输出 中 . 
9 写 地 址 由 Address 信 号 的 输入 指定 ， 写 入 内 
MemwWrite | 态 容 是 Write data 信 号 的 输入 中 的 什 
MemtoReg | ”寄存 器 写 数据 的 输入 值 来 自 ALU 寄存 器 写 数据 的 输入 值 来 自 数据 存储 器 





图 4-16 6 个 控制 信号 的 功能 。 当 两 路 多 选 器 的 1 位 控制 信号 有 效 时 ， 多 选 器 选择 对 应 于 1 
的 输入 。 和 否则 选择 对 应 于 0 的 输入 。 请 记 住 ， 所 有 状态 单元 都 将 时 钟 信号 作为 隐 式 
输入 ， 而 且 时 钟 控 制 写 操作 。 时 钟 信号 从 来 不 在 状态 单元 之 外 通过 任何 门 电 路 ， 因 
为 这 样 可 能 导致 时 序 问题 (附录 A 对 此 问题 有 进一步 讨论 ) 


在 设计 控制 单元 的 计算 公式 或 真 值 表 之 前 ， 应 非 正式 地 定义 控制 功能 。 由 于 控制 信号 
的 设置 仅 取决 于 操作 码 ， 我 们 需要 定义 每 个 控制 信号 在 每 个 操作 码 的 取 值 下 是 0、1 或 无 关 
(X)。 根 据 图 4-12、 图 4-16 和 图 4-17， 图 4-18 定义 了 对 应 于 每 种 操作 码 的 控制 信号 。 
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图 4-17 带 有 控制 单元 的 简单 数据 通路 。 控 制 单元 的 输入 是 指令 的 7 位 操作 码 字 段 ， 输 出 
包含 两 个 控制 多 路 选择 器 的 1 位 信号 (ALUSrc 和 MemtoReg)、 三 个 控制 寄存 器 堆 
和 数据 存储 器 读 写 的 信号 (RegWrite、MemRead 和 MemWrite)、 一 个 确定 是 否 分 
支 的 1 位 信号 (Branch) 和 一 个 ALU 的 2 位 控制 信号 (ALUOp)。 分 支 控制 信号 与 
ALU 的 零 输 出 信号 一 起 送 入 一 个 与 门 ， 其 输出 控制 下 一 个 PC 的 选择 。 注 意 PCSrc 
是 衍生 信号 ， 不 是 直接 来 自控 制 单 元 。 因 此 在 图 中 我 们 没有 标 出 这 个 信号 名 称 
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图 4-18 控制 线 的 设置 完全 取决 于 指令 的 操作 码 字段 。 表 格 中 第 一 行 对 应 R 型 指令 ( add、 
sub、and 和 or 指令 )。 源 寄存 器 字段 为 rsl 和 rs2， 目 标 寄存 器 字段 为 rd ; 这 决 
定 了 信号 ALUSrc 如 何 设 置 。 此 外 ，R 型 指令 写 和 人 寄存 器 ( RegWrite = 1 ), 但 不 读 
写 数据 存储 器 。 当 Branch 控制 信号 为 0 时 ，PC 无 条 件 地 由 PC + 4 取代 ; 否则 ， 
如 果 ALU 的 零 输 出 也 为 高 ， 则 PC 由 分 支 目标 地 址 取代 。R 型 指令 的 ALUOp 字 
段 为 10， 表 示 ALU 控制 信号 应 由 funct 字段 生成 。 该 表 的 第 二 行 和 第 三 行 给 出 了 
1d 和 sd 的 控制 信号 。ALUSrc 和 ALUOp 字段 被 设置 为 执行 地 址 计算 。MemRead 
和 MemWrite 被 设置 为 执行 存储 器 访问 。 最 后 ， 为 load 指令 设置 RegWrite， 将 
结果 存 人 rd 寄存 器 中 。 分 支 指令 的 ALUOp 字段 设置 为 减法 (ALU 控制 信号 = 
01 )， 用 于 测试 相等 性 。 请 注意 ， 当 RegWrite 信和 号 为 0 时 ，MemtoReg 字段 无 关 紧 
要 : 因为 寄存 器 没有 被 写 和 人， 寄存 器 写 端 口 的 数据 值 不 被 使 用 ， 所 以 最 后 两 行 中 的 
MemtoReg 值 由 于 不 被 关心 而 被 X 取代 。 这 种 无 关 项 设计 必须 由 设计 者 加 入 ， 因 为 
其 依赖 于 对 数据 通路 工作 原理 的 了 解 
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4.4.3 数据 通路 操作 


根据 图 4-16 和 图 4-18 包含 的 信息 ， 可 以 设计 控制 单元 的 逻辑 ， 但 在 这 之 前 先 了 解 每 条 
指令 是 如 何 使 用 数据 通路 的 。 接 下 来 的 几 张 图 说 明了 三 类 不 同 指令 在 数据 通路 中 的 流动 。 有 
效 的 控制 信号 和 数据 通路 单元 已 标 出 。 请 注意 ， 多 选 器 在 控制 信号 为 0 时 也 有 相应 的 动作 ， 
即使 其 控制 信号 没有 着 重 标 出 。 对 于 多 位 信号 ， 只 要 其 中 任何 信号 有 效 ， 就 着 重 标 出 。 

图 4-19 所 示 为 R 型 指令 的 数据 通路 操作 ,例如 add x1,x2,x3。 虽 然 所 有 操作 都 发 
生 在 一 个 时 钟 周期 内 ,但 我 们 认为 执行 该 指令 共 分 为 四 个 步骤 ， 这 些 步 又 按照 信息 的 流动 
排序 : 

1. 取出 指令 ，PC 自 增 。 

2. 从 寄存 器 堆 读 出 两 个 寄存 器 x2 和 x3 ， 同 时 主 控制 单元 在 此 步骤 计算 控制 信号 。 

3. 根据 部 分 操作 码 确定 ALU 的 功能 ， 对 从 寄存 器 堆 读 出 的 数据 进行 操作 。 

4. 将 ALU 的 结果 写 和 人 寄存 融 堆 中 的 目标 寄存 器 (x1)。 














Branch 
MemRead 
MemtoReg 


Dp 
ALUSrc 


RegWrite 
Read 
register 1 Read 


Rad data 1 
register 2 


Write Read 
register data 2 


Write 
data Registers 










Instruction [6-0] 














Instruction [19—15] 


Instruction [24--20] 









Read 
address 















Instruction 
[31-0] 


Instruction 
























rita Data 
Jata memory| 
ata 








Instruction [30,14—12] 


图 4-19 ”执行 R 型 指令 时 数据 通路 的 操作 ， 例 如 add xl1，x2，x3。 用 到 的 控制 线 、 数 据 
通路 单元 和 连接 以 灰色 示 出 


用 类 似 图 4-19 的 方式 ， 可 以 说 明 1load 指 令 的 执行 ， 例 如 1d xl, offset(x2)。 


图 4-20 所 示 为 在 load 指令 执行 过 程 中 有 效 的 功能 单元 和 控制 线 。 可 将 load 指令 的 执行 分 为 
五 个 步 又 (与 R 型 指令 分 四 步 执行 类 似 ): 


处 理 器 18] 





1. 从 指令 存储 需 中 取出 指令 ，PC 自 增 。 

2. 从 寄存 器 堆 读 出 寄存 器 (x2) 的 值 。 

3. ALU 将 从 寄存 器 堆 中 读 出 的 值 和 符号 扩展 后 的 指令 中 的 12 位 〈 偶 移 量 ) 相 加 。 
4. 将 ALU 的 结果 用 作 数 据 存储 右 的 地 址 。 

5. 将 从 存储 絮 读 出 的 数据 写 入 寄存 絮 堆 (x1)。 
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图 4-20 执行 load 指令 时 数据 通路 的 操作 。 用 到 的 控制 线 、 数 据 通路 单元 和 连接 着 重 标记 。 
store 指令 的 操作 与 之 相似 。 主 要 区 别 在 于 存储 器 控制 将 指明 操作 是 写 而 不 是 读 ， 
读 出 的 第 二 个 寄存 器 的 值 将 作为 要 存储 的 数据 ， 并 且 不 存在 将 数据 存储 器 的 内 容 写 
入 寄存 器 堆 的 操作 


最 后 ， 用 相同 的 方式 说 明 branch-if-equal 指令 的 操作 ， 例 如 beq x1, x2, offset。 它 
的 操作 与 R 型 指令 非常 相似 ， 但 ALU 的 输出 被 用 来 确定 PC 由 PC+4 还 是 分 支 目 标 地 址 写 
入 。 图 4-21 所 示 为 执行 的 四 个 步骤 : 

1. 从 指令 存储 器 中 取出 指令 ，PC 自 增 。 

2. 从 寄存 器 堆 中 读 出 两 个 寄存 器 x1 和 x2。 

3. ALU 将 从 寄存 器 堆 读 出 的 两 数 相 减 。PC 与 左 移 一 位 、 符 号 扩展 的 指令 中 的 12 位 ( 偏 
移 ) 相 加 ， 结 果 是 分 支 目标 地 址 。 

4. ALU 的 零 输 出 决定 将 哪个 加 法 器 的 结果 写 人 PC。 
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图 4-21 执行 branch-if-equal 指令 时 数据 通路 的 操作 。 用 到 的 控制 线 、 数 据 通路 单元 和 连接 
着 重 标 出 。 在 寄存 器 堆 和 ALU 执行 比较 操作 之 后 ， 零 输出 从 两 个 可 能 的 PC 之 间 
选择 下 一 个 PC 


4.4.4 控制 的 结束 


我 们 已 经 了 解 了 指令 如 何 按 步 骤 操 作 ， 现 在 继续 讨论 控制 单元 的 实现 。 控 制 单 元 的 功能 
可 根据 图 4-18 的 内 容 进 行 精确 定义 ， 其 输出 是 控制 线 ， 输 入 是 几 位 操作 码 。 因 此 ， 可 以 根 
据 操作 码 的 二 进 制 编码 为 每 个 输出 建立 一 个 真 值 表 。 

图 4-22 将 控制 单元 的 逻辑 定义 为 一 个 大 的 真 值 表 ， 它 将 所 有 输出 与 输入 组 合 在 一 起 ， 
输入 为 操作 码 ， 并 且 完 整地 描述 了 控制 单元 的 功能 ， 可 以 自动 地 转换 为 门 电路 实现 ， 附 录 C 
中 的 C.2 节 描 述 了 这 个 步骤 。 


4.4.5 为 什么 现在 不 使 用 单 周期 实现 


尽管 单 周 期 设计 可 以 正确 工作 ， 但 是 在 现代 设计 中 不 采取 这 种 方式 ， 因 为 它 的 效率 太 
低 。 究 其 原因 ， 是 在 单 周 期 设计 中 时 钟 周期 对 于 每 条 指令 必须 等 长 。 这 样 ， 处 理 器 中 的 最 长 
路 径 决 定 了 时 钟 周期 。 这 条 路 径 很 可 能 是 一 条 load 指令 ， 它 连续 地 使 用 5 个 功能 单元 : 指令 
存储 器 、 寄 存 器 堆 、ALU、 数 据 存储 器 和 寄存 器 堆 。 虽 然 CPI 为 1 ( 见 第 1 章 )， 但 由 于 时 钟 
周期 太 长 ， 单 周期 实现 的 整体 性 能 可 能 很 差 。 

使 用 单 周 期 设计 的 代价 是 显著 的 ， 但 对 于 这 个 小 指令 集 而 言 ， 或 许 是 可 以 接受 的 。 历 史 
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上 ,早期 具有 简单 指令 集 的 计算 机 确实 采用 这 种 实现 方式 。 但 是 ， 如 果 要 实现 浮 点 单元 或 更 
复杂 的 指令 集 ， 单 周期 设计 根本 无 法 正常 工作 。 
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图 4-22 真 值 表 完 整地 描述 了 简单 的 单 周 期 实现 的 控制 功能 。 上 半 部 分 给 出 了 与 四 类 指令 
(每 列 一 类 ) 相对 应 的 输入 信号 的 组 合 ， 决 定 了 输出 如 何 设置 。 下 半 部 分 给 出 了 对 
应 四 种 操作 码 的 输出 。 例 如 ， 在 两 种 不 同 的 输入 情况 下 ， 输 出 信号 RegWrite 有 效 。 
如 果 只 考虑 表 中 的 四 种 操作 码 ， 那 么 可 以 使 用 输入 部 分 的 无 关 项 来 简化 真 值 表 。 例 
如 ， 可 以 用 表达 式 Op4* Op5 检测 R 型 指令 ， 因 为 这 足以 将 1d4、sd 和 beq 指令 
与 R 型 指令 区 分 开 。 由 于 在 RISC-V 的 完整 实现 中 会 用 到 操作 码 的 其 余部 分 ， 所 以 
我 们 没有 使 用 这 种 简化 


由 于 时 钟 周期 必须 满足 所 有 指令 中 最 坏 的 情况 ， 所 以 不 能 使 用 那些 缩短 常用 指令 执行 时 
间 而 不 改变 最 坏 情况 的 实现 技术 。 因 此 ， 单 周期 实现 违反 了 第 1 章 中 咕 束 经 常 性 事件 这 一 设 
计 原 则 。 

在 下 一 节 ， 我 们 将 看 到 一 种 称 为 流水 线 的 实现 技术 ， 它 使 用 与 单 周 期 相似 的 数据 通路 ， 
但 吞吐 量 更 高 ， 效 率 更 高 。 流 水 线 技术 通过 同时 执行 多 条 指令 来 提高 效率 。 
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4.5 流水 线 概述 
流水 线 是 一 种 能 使 多 条 指令 重 释 执 行 的 实现 技术 。 目 前 ， 咱 未 
改 技 术 广 泛 应 用 。 
本 节 用 一 个 比喻 概述 流水 线 的 概念 及 相关 问题 。 如 果 只 想 了 解 
流水 线 的 主要 内 容 ， 应 详细 阅读 本 节 后 跳 到 4.10 节 和 4.11 节 学 习 最 


决 不 浪费 时 间 。 
类 国 开 语 





流水 线 : 一 种 实现 多 条 指 
令 重 枉 执 行 的 技术 ， 与 生 
产 流水 线 类 似 。 
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新 处 理 器 (如 Intel Core i7 和 ARM Cortex-A53 ) 中 使 用 的 高 级 流水 线 技术 。 如 果 想 深入 了 解 
流水 线 计算 机 ，4.6 ~ 4.9 节 做 了 详细 介绍 。 

任何 做 洗衣 工作 的 人 都 不 自觉 地 使 用 流水 线 技术 。 非 流水 线 的 洗衣 过 程 包含 如 下 步骤: 

1. 将 一 批 脏 衣 服 放 入 洗衣 机 。 

2. 洗衣 机 洗 完 后 ， 将 湿 衣 服 取 出 并 放 入 烘 干 机 。 

3. 烘 干 机 完成 后 ， 将 干 衣服 取出 ， 放 在 桌 上 并 番 起 来 。 

4. 苹 好 后 ， 请 你 的 室友 帮忙 把 衣服 收 好 。 
你 的 室友 把 衣服 收 好 后 ， 再 开始 洗 下 一 批 脏 衣服 。 

流水 线 方法 花费 的 时 间 少 得 多 ， 如 图 4-23 所 示 。 当 第 一 批 衣服 从 洗衣 机 中 取出 并 放 入 
烘 干 机 后 ， 就 可 以 把 第 二 批 脏 衣 服 放 入 洗衣 机 。 当 第 一 批 衣服 烘 干 完成 后 ， 就 可 以 把 它们 放 
在 桌 上 笃 起 来 ， 同 时 把 洗衣 机 中 洗 好 的 衣服 放 入 烘 干 机 ， 再 将 下 一 批 脏 衣 服 放 和 人 洗衣机。 接 
着 让 你 的 室友 把 第 一 批 衣服 从 桌 上 收 好 ， 你 开始 到 第 二 批 衣服 ， 烘 干 机 开始 烘 干 第 三 批 衣 
服 ， 同 时 可 以 把 第 四 批 衣服 放 入 洗衣 机 。 此 时 ， 所 有 的 洗衣 步骤 ( 称 为 流水 线 阶 段 ) 在 同时 
工作 。 只 要 每 个 阶段 使 用 不 同 的 资源 ， 我 们 就 可 以 用 流水 线 的 方法 完成 任务 。 
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图 4-23 ”以 洗衣 服 为 例 类 比 流水 线 。 安 、 布 莱恩 、 凯 苦 和 唐 各 自 都 有 脏 衣服 要 清洗 、 烘 干 、 
折 春 和 收 起 。 洗 衣 机 、 烘 干 机 、“ 折 和 至 机 ”和 “ 收 衣 机 ”每 台 机 器 需要 30 分 钟 完成 
各 自任 务 ， 顺 序 的 洗衣 方法 需要 8 小 时 洗 完 4 批 衣 服 ， 而 流水 线 洗衣 方法 只 需 3.5 
小 时 。 图 中 在 二 维 时间 轴 中 通过 资源 的 4 次 复制 表明 不 同 工 作 负载 的 流水 线 阶段 ， 
但 实际 上 每 种 资源 只 有 一 份 


流水 线 的 矛盾 在 于 ， 对 于 一 双 脏 袜子 ， 从 把 它 放 人 洗衣 机 到 被 烘 干 、 释 好 和 收 起 的 时 间 
在 流水 线 中 并 没有 缩短 ; 然而 对 于 许多 负载 来 说 ， 流 水 线 更 快 的 原因 是 所 有 工作 都 在 并 行 地 
执行 。 所 以 单位 时 间 能 够 完成 更 多 工作 ， 流 水 线 提 高 了 洗衣 系统 的 吞吐 率 ( throughput)。 因 





此 ， 流 水 线 不 会 缩短 洗 一 次 衣服 的 时 间 ,， 但 是 当 有 很 多 衣物 需要 洗 时 ， 吞 吐 率 的 提高 减少 了 
完成 整个 任务 的 时 间 。 

如 果 每 个 步骤 需要 的 时 间 相 同 ， 并 且 要 完成 的 工作 足够 多 ,那么 由 流水 线 产生 的 加 速 比 
等 于 流水 线 中 步骤 的 数目 ， 在 这 个 例子 中 是 4 倍 : 洗涤 、 烘 干 、 折 和 至 和 收 起 。 因 此 ， 流 水 线 
方式 洗衣 是 非 流水 线 方式 洗衣 速度 的 4 倍 : 流水 线 中 20 次 洗衣 需要 的 时 间 是 一 次 洗衣 的 5 
音 ， 而 20 次 非 流 水 线 洗衣 的 时 间 是 一 次 洗衣 的 20 倍 。 图 4-23 中 流水 线 方式 的 速度 仅 为 非 
流水 线 方式 的 2.3 倍 ， 因 为 图 中 只 包括 4 次 洗衣 过 程 。 注 意 到 图 4-23 流水 线 中 的 工作 负载 在 
开始 和 结束 时 ， 流 水 线 并 未 完全 充满 ; 当 任务 数量 与 流水 线 的 步 又 数量 相 比 不 是 很 大 时 ,， 流 
水 线 的 启动 和 结束 会 影响 它 的 性 能 。 在 本 例 中 ， 如 果 负 载 的 数量 远 远大 于 4， 那 么 流水 线 步 
又 在 大 部 分 时 间 是 充满 的 ， 吞 吐 率 的 增加 接近 4 倍 。 

同样 的 原则 也 可 用 于 处 理 器 ， 即 采用 流水 线 方式 执行 指令 。RISC-V 指令 执行 通常 包含 

1. 从 存储 器 中 取出 指令 。 

2. 读 寄 存 器 并 译 码 指令 。 

3. 执行 操作 或 计算 地 址 。 

4. 访问 数据 存储 器 中 的 操作 数 (如 有 必要 )。 

5. 将 结果 写 和 寄存 器 (如 有 必要 )。 

因此 ， 本 章 探 讨 的 RISC-V 流水 线 有 五 个 阶段 。 正 如 流水 线 加 速 洗 衣 过 程 一 样 ， 下 面 的 
例子 将 说 明 流 水 线 如 何 加 速 指令 执行 。 


| 例题 | 单 周 期 实现 与 流水 线性 能 * 

为 了 使 讨论 具体 化 ， 我 们 先 建立 一 个 流水 线 。 在 本 例 和 本 章 的 其 余部 分 ， 我们 只 考虑 这 
七 条 指令 : 双 字 载 人 (1d)、 双 字 存 储 (sd)、 加 (add)、 减 (sub)、 与 (and)、 或 (or) 和 
相等 就 跳 转 (beq) 指令 。 

本 例 将 单 周 期 指令 执行 (每 条 指令 执行 需要 一 个 时 钟 周期 ) 与 流水 线 指令 执行 的 平均 
执行 时 间 进 行 对 比 。 假 设 在 本 例 中 主要 功能 单元 的 操作 时 间 为 : 指令 或 数据 存储 器 访问 为 
200ps，ALU 操作 为 200ps， 寄 存 器 堆 的 读 或 写 为 100ps。 在 单 周 期 模型 中 ， 每 条 指令 的 执行 
需要 一 个 时 钟 周期 ， 所 以 时 钟 周 期 必须 满足 最 慢 的 指令 。 
| 答案 | 图 4-24 所 示 为 七 条 指令 中 每 条 指令 所 需 的 执行 时 间 。 单 周期 设计 必须 满足 最 慢 的 指 
令 一 一 图 4-24 中 是 1d 指令 ， 所 以 每 条 指令 所 需 的 执行 时 间 是 800ps。 类 似 图 4-23 ， 图 4-25 
比较 了 三 条 载 和 人 寄存 器 指令 的 非 流 水 线 方式 和 流水 线 方式 的 执行 过 程 。 因 此 ,在 非 流 水 线 设 
计 中 ， 第 一 条 和 第 四 条 指令 之 间 的 时 间 为 3 x 800ps=2400ps。 
































Load doubleword (ld) 200 ps 100 ps 200 ps 200 ps 100 ps 800 ps 
| Store doubleword (sd) | 200 ps 100 ps 200 ps 200 ps | 700 ps 
R-format (add, sub,and, or) | 200 ps 100 ps | 200 ps | 100 ps 600 ps 
Branch (beq) | 200ps | 100ps | 200ps | 500 ps 








图 4-24 根据 各 功能 单元 所 需 时 间 计 算出 的 每 条 指令 执行 总 时 间 。 假 定 多 路 选择 器 、 控 制 单 
元 、PC 访问 和 符号 扩展 单元 没有 延迟 
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图 4-25 单 周 期 、 非 流水 线 的 指令 执行 (上 ) 与 流水 线 的 指令 执行 (下 )。 两 者 采用 相同 的 
功能 单元 ， 各 功能 单元 执行 时 间 如 图 4-24 所 示 。 在 这 种 情况 下 ， 我 们 看 到 指令 的 
平均 执行 时 间 从 800ps 降低 到 200ps， 速 度 提高 了 4 倍 。 比 较 此 图 与 图 4-23。 对 于 
洗衣 的 例子 ,假设 所 有 阶段 所 需 时 间 相 等 。 如 果 烘 干 是 最 慢 的 阶段 ， 那么 烘 干 阶 
段 所 需 时 间 定 为 每 个 阶段 的 时 间 。 计 算 机 流水 线 阶段 时 间 也 受 限 于 最 慢 的 阶段 ， 要 
么 是 ALU 操作 ， 要 么 是 存储 器 访问 。 同 时 我 们 假设 写 寄存 器 堆 操作 发 生 在 时 钟 周 
期 的 前 半 段 ， 读 寄存 器 堆 操 作 发 生 在 时 钟 周期 的 后 半 段 。 本 章 后 面 将 一 直 遵循 这 个 
假设 
所 有 的 流水 线 阶段 都 需要 一 个 时 钟 周 期 ， 所 以 流水 线 的 时 钟 周 期 必须 足够 长 以 满足 最 慢 
的 操作 。 就 像 单 周 期 设计 中 ， 即 使 某 些 指 令 的 执行 可 能 只 需要 S00ps， 但 时 钟 周期 要 满足 最 坏 
情况 800ps。 流 水 线 的 时 钟 周期 也 必须 满足 最 坏 情 况 200ps， 尽 管 有 些 阶 段 只 需要 100ps。 流 
水 线 仍然 提供 了 4 倍 的 性 能 改进 : 第 一 条 和 第 四 条 指令 之 间 的 时 间 是 3 x 200ps=600ps。 一 一 * 


我 们 可 以 将 上 面 讨论 的 流水 线 带 来 的 性 能 加 速 比 归纳 为 一 个 公式 。 如 果 流 水 线 各 阶段 操 
作 平 衡 ， 那 么 流水 线 处 理 器 上 的 指令 执行 时 间 (假设 理想 条 件 下 ) 等 于 


指令 执行 时 间 ， x 

流水 线 级 数 

在 理想 的 条 件 下 和 有 大 量 指令 的 情况 下 ， 流 水 线 带 来 的 加 速 比 约 等 于 流水 线 级 数 ;五 级 
流水 线 带 来 的 加 速 比 接近 5。 

该 公式 表明 ， 一 个 五 级 流水 线 在 800ps 非 流水 线 执行 时 间 的 情况 下 ， 能 带 来 接近 5 倍 的 
性 能 提高 ， 即 相当 于 时 钟 周期 为 160ps。 然 而 ， 在 前 面 的 例子 中 ， 各 阶段 不 完全 平衡 。 此 外 ， 
流水 线 引 入 了 一 些 开销 ， 开 销 的 来 源 稍 后 会 更 加 清晰 。 因 此 ， 流 水 线 处 理 器 中 每 条 指令 的 执 
行 时 间 将 超过 最 小 值 ， 所 以 加 速 比 将 小 于 流水 线 的 级 数 。 

此 外 ， 尽 管 在 前 面 的 分 析 中 断言 将 有 4 倍 的 性 能 提升 ， 但 在 本 例 的 三 条 指令 的 总 执行 





令 执 行 时 间 , a = 
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时 间 中 却 并 未 反映 出 来 : 实际 加 速 比 是 2400ps/1400ps。 当 然 ， 这 是 因为 指令 的 数量 不 够 多 。 
如 果 增 加 指令 的 数量 会 发 生 什么 ”我 们 将 前 面 图 中 的 指令 数 增加 到 1 000 003 条 ， 也 就 是 说 
在 流水 线 中 增加 1 000 000 条 指令 ， 每 条 指令 使 总 执行 时 间 增 加 200ps。 这 样 ， 总 执行 时 间 为 
1 000 000 x 200ps + 1400ps=200 001 400ps。 在 非 流 水 线 方式 中 ,增加 1 000 000 条 指令 ， 每 
条 指令 需要 800ps， 因 此 总 执行 时 间 为 1 000 000 x 800ps + 2400ps=800 002 400ps。 在 这 些 条 
件 下 ,在 非 流 水 线 处 理 需 与 流水 线 处 理 器 上 ,真实 程序 执行 时 间 的 比值 接近 于 指令 执行 时 间 
的 比值 : 


800 002 400ps 800ps _ 
200 001 400ps 200ps 
流水 线 技术 通过 提高 指令 吞吐 率 来 提高 性 能 ， 而 不 是 减少 单个 指令 的 执行 时 间 。 由 于 真 
实 程序 会 执行 数 十 亿 条 指令 ， 所 以 指令 吞吐 率 是 一 个 重要 指标 。 





4.00 


4.5.1 面向 流水 线 的 指令 系统 设计 


尽管 上 面 的 例子 只 是 对 流水 线 的 简单 介绍 ， 但 我 们 也 能 够 通过 它 了 解 面向 流水 线 设计 的 
RISC-V 指令 系统 。 

第 一 ， 所 有 RISC-V 指令 长 度 相 同 。 这 个 限制 简化 了 流水 线 第 一 阶段 取 指 令 和 第 二 阶段 
指令 译 码 。 在 像 x86 这 样 的 指令 系统 中 ， 指 令 长 度 从 1 个 字 节 到 15 个 字 节 不 等 ， 流 水 线 设 
计 更 具 挑战 性 。 现 代 x86 架构 在 实现 时 ， 将 x86 指令 转换 为 类 似 RISC-V 指令 的 简单 操作 ， 
然后 流水 化 这 些 简单 操作 ， 而 不 是 流水 化 原始 的 x86 指令 ( 见 4.10 节 )。 

第 二 ，RISC-V 只 有 几 种 指令 格式 ， 源 寄存 器 和 目标 寄存 器 字段 的 位 置 相 同 。 

第 三 ， 存 储 器 操作 数 只 出 现在 RISC-V 的 load 或 store 指令 中 。 这 个 限制 意味 着 可 以 利 
用 执行 阶段 来 计算 存储 器 地 址 ， 然 后 在 下 一 阶段 访问 存储 器 。 如 果 可 以 操作 内 存 中 的 操作 
数 ， 就 像 在 x86 中 一 样 ， 那 么 第 三 阶段 和 第 四 阶段 将 扩展 为 地 址 计算 阶段 、 存 储 器 访问 阶段 
和 执行 阶段 。 很 快 就 会 看 到 较 长 流水 线 的 缺点 。 


4.5.2 ”流水线 冒险 


流水 线 中 有 一 种 情况 ， 在 下 一 个 时 钟 周 期 中 下 一 条 指令 无 法 执行 。 这 种 情况 被 称 为 冒险 
(hazard)， 我 们 将 介绍 三 种 冒险 。 

结构 冒险 

第 一 种 冒险 叫 作 结构 冒险 ( structural hazard)。 即 硬件 不 支持 多 | 结构 冒险 因 缺 乏 硬件 支 
条 指令 在 同一 时 钟 周 期 执行 。 在 洗衣 例子 中 ， 如 果 用 洗衣 烘 干 一 体 | 持 而 导致 指令 不 能 在 预定 
机 而 不 是 分 开 的 洗衣 机 和 烘 干 机 ， 或 者 如 果 你 的 室友 正在 做 其 他 事 。 | 的 时 钟 周期 内 执行 的 情况 。 
情 而 不 能 收 好 衣服 ， 都 会 发 生 结构 冒险 。 这 时 ， 我 们 精心 设计 的 流 
水 线 就 会 受到 破坏 。 

如 上 所 述 ，RISC-V 指令 系统 是 面向 流水 线 设计 的 ， 这 使 得 设计 人 员 在 设计 流水 线 时 很 
容易 避免 结构 冒险 。 然 而 ,假设 图 4-25 的 流水 线 结构 只 有 一 个 而 不 是 两 个 存储 器 ， 那 么 如 
果 有 第 四 条 指令 ， 则 会 发 生 第 一 条 指令 从 存储 器 取 数 据 的 同时 第 四 条 指令 从 同一 存储 器 取 指 
令 ， 流水线 会 发 生 结构 冒险 。 
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数据 冒险 

由 于 一 个 步骤 必须 等 待 另 一 个 步 又 完成 而 导致 的 流水 线 停顿 叫 | 数据 冒险 : 也 称 为 流水 线 
作 数 据 冒 险 ( data hazard)。 假 设 你 在 县 衣服 时 发 现 一 只 袜子 找 不 到 ”| 数据 冒险 ， 因 无 法 提供 指 
与 之 匹配 的 另 一 只 。 一 种 可 能 的 策略 是 跑 到 房间 ， 在 衣 橱 中 找 ， 看 | 人 全 和合 中 全 
是 否 能 找到 另 一 上 只。 显然 ， 当 你 在 找 袜子 时 ， 完 成 烘 干 准备 被 折 大 | 人 生生 和 和 人 
的 衣服 和 那些 已 经 洗 完 准备 去 烘 干 的 衣服 ， 不 得 不 停顿 等 待 。 

在 计算 机 流水 线 中 ,数据 冒 险 源 于 一 条 指令 依赖 于 前 面 一 条 尚 在 流水 线 中 的 指令 (这 种 
关系 在 洗衣 例子 中 并 不 存在 )。 例 如 ， 假 设 有 一 条 加 法 指令 ， 它 后 面 紧 跟着 一 条 使 用 加 法 的 
和 的 减法 指令 (x19 ): 

add xi9. KO, WH 

Un Xe X19 

在 不 做 任何 干预 的 情况 下 ， 这 一 数据 冒险 会 严重 地 阻碍 流水 线 。add 指令 直到 第 五 个 阶 
段 才 写 结果 ， 这 将 浪费 三 个 时 钟 周期 。 

尽管 可 以 尝试 通过 编译 器 来 消除 这 些 冒险 ,但 结果 并 不 令 人 满意 。 这 些 依赖 经 常 发 生 ， 
并 且 导 致 的 延迟 太 长 ， 所 以 不 可 能 指望 编译 器 将 我 们 从 这 个 困境 中 
解救 出 来 。 

一 种 基本 的 解决 方案 是 基于 以 下 发 现 : 不 需要 等 待 指令 完成 就 | 机 志和 同 六 这 人 
可 以 尝试 解决 数据 冒险 。 对 于 上 面 的 代码 序列 ,一 旦 ALU 计算 出 郑 且 沙 中 到 到 冻 掺 ， 而 条 
加 法 的 和 ， 就 可 将 其 作为 减法 的 输入 。 向 内 部 资源 添加 额外 的 硬件 “| 是 等 到 数据 到 达 程序 员 可 
以 尽快 找到 缺少 的 运算 项 的 方法 ， 称 为 前 递 (forwarding) 或 旁 路 | 见 的 洁 存 器 或 存储 器 
(bypassing) 。 


| 例题 | 两 条 指令 的 前 递 = 
对 于 上 面 的 两 条 指令 ， 说 明 前 递 将 连接 哪些 流水 级 。 图 4-26 表示 流水 线 五 个 阶段 的 数 
据 通路 。 与 图 4-23 中 的 洗衣 例子 的 流水 线 类 似 ， 每 条 指令 的 数据 通路 排 成 一 行 。 





时 间 200 400 600 800 1000 


图 4-26 指令 流水 线 的 图 形 表示 ， 本 质 上 与 图 4-23 的 洗衣 流水 线 类 似 。 本 图 及 本 章 使 用 图 
形 符号 和 流水 线 阶 段 的 缩写 来 表示 物理 资源 。 五 个 阶段 的 图 形 符号 分 别 为 : IF 表 
示 取 指令 阶段 ， 方 框 表示 指令 存储 器 ; ID 表示 指令 译 码 / 读 寄存 器 阶段 ， 虚 线 框 
表示 正在 被 读 的 寄存 器 堆 ; EX 表示 执行 阶段 ， 图 中 图 形 表示 ALU ; MEM 表示 存 
储 器 访问 阶段 ， 方 框 表示 数据 存储 器 : WB 表示 写 回 阶段 ， 虚 线 表 示 被 写 人 的 寄存 
髓 堆 。 阴 影 表 示 该 单元 被 指令 使 用 。 因 为 add 指令 不 访问 数据 存储 器 ， 所 以 MEM 
没有 阴影 。 寄 存 器 堆 或 存储 器 右 半 部 分 为 阴影 表示 该 阶段 它们 被 读 ， 而 左 半 部 分 为 
阴影 表示 该 阶段 它们 被 写 。 因 此 ，ID 的 右 半 部 分 在 第 二 阶段 为 阴影 ， 因 为 寄存 器 
堆 被 读 ， 而 WB 的 左 半 部 分 在 第 五 阶段 为 阴影 ， 因 为 寄存 器 堆 被 写 


| 答案 | 图 4-27 所 示 为 将 add 指令 的 执行 阶段 后 的 xl 中 的 值 ， 前 递 给 sub 指令 作为 执行 阶 
段 的 输入 。 





程序 执行 顺序 ”时间 ~ 20 40 600 800 100 . 
( 以 指令 计 ) 本 本 
add x1, x2, x3 | 疡 一 | B: 


sub x4, x1, x5 





图 4-27 前 递 的 图 形 表示 。 灰 色 线 表示 前 递 的 路 径 ， 将 add 指令 EX 阶段 的 输出 前 递 到 
sub 指令 EX 阶段 的 输入 ,替换 sub 指令 在 第 二 阶段 读 出 的 寄存 器 x1 的 值 





在 图 4-27 中 ， 仅 当 目 标 阶 段 在 时 间 上 晚 于 源 阶段 时 ， 前 递 路 径 才 有 效 。 例 如 ， 从 第 一 
条 指令 存储 器 访问 阶段 的 输出 到 下 一 条 指令 执行 阶段 的 输入 不 可 能 存在 有 效 前 递 路 径 ， 和 否则 
意味 着 时 间 倒 流 。 

前 递 的 效果 很 好 ( 详 见 4.7 节 )， 但 不 能 避免 所 有 的 流水 线 停 顿 。 | 载 入 -使 用 型 数据 冒险 : 
例如 ， 假 设 第 一 条 指令 是 load xl 而 不 是 加 法 指令 ， 正 如 图 4-27 所 | 一 种 特定 形式 的 数据 置 
述 ， 在 第 一 个 指令 的 第 四 个 阶段 之 后 ，sub 指令 所 需 的 数据 才 可 | 生 和 过 证 枯 们 是 二 他 和 
用 ,这 对 于 sub 指令 第 三 个 阶段 的 输入 来 说 太 迟 了 。 因 此 ， 即 使 使 | 人 就 过 要 该 数据 的 情况 
用 前 递 ， 流 水 线 也 不 得 不 停顿 一 个 阶段 来 处 理 载 入 - 使 用 型 数据 冒 
险 (load-use data hazard)， 如 图 4-28 所 示 。 该 图 包含 流水 线 的 一 个 
重要 概念 ， 正 式 叫 法 是 流水 线 停顿 ( pipeline stall)， 但 通常 俗称 为 气 | 流水 线 停顿 也 称 为 气泡 ， 


泡 (bubble)。 我 们 经 常 看 到 流水 线 中 发 生 停顿 。4.7 节 介 绍 如 何 处 理 ”| 为 了 解决 冒险 而 实施 的 一 
这 种 类 似 本 例 的 复杂 情况 ， 即 使 用 硬件 检测 和 停顿 ， 或 由 软件 对 代 | 种 阻塞 。 
码 进行 重新 排序 以 尽量 避免 载 入 -使 用 型 流水 线 停顿 。 

程序 执行 顺序 和 200 400 600 800 1000 1200 1400 


ld x1, 0(x2) 


sub x4, x1, x5 





图 4-28 当 一 条 load 指令 之 后 紧 跟着 一 条 需要 使 用 其 结果 的 R 型 指令 时 ， 即 使 使 用 前 递 也 
需要 停顿 。 如 果 不 停顿 ， 从 存储 器 访问 阶段 的 输出 到 执行 阶段 的 输入 这 条 路 径 意味 
着 时 间 倒 流 ， 这 是 不 可 能 的 。 该 图 实际 是 一 个 示意 图 ， 因 为 直到 sub 指令 被 取出 
并 译 码 后 才 知 道 是 否 需要 停顿 。4.7 节 介绍 了 发 生 冒 险 时 的 细节 


| 例题 | 重 排 代码 以 避免 流水 线 停顿 -一 = 
考虑 以 下 C 语言 代码 段 ; 


过 
时 和 





a 
Ko 
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下 面 是 这 个 代码 段 生成 的 RISC-V 代码 ， 假 设 所 有 变量 都 在 存储 器 中 ， 并 且 以 x31 作为 基 
址 ， 加 偏 移 后 即 可 访问 这 些 变 量 : 


| Xl OILY A Loadb 
ld 2 TRSLY // Load e 
add 5 1 2 0 

sd XB MULL) A SEONe 
1d x4, 16(X31) VY Load f 
add > 本 二 全 

sd Xo SRTLY A StLATE € 


试 找 出 上 述 代 码 段 中 的 冒险 并 重新 排列 指令 以 避免 流水 线 停顿 。 
| 答案 | 两 条 add 指令 都 有 冒险 ， 因 为 它们 分 别 依 赖 于 上 一 条 1d 指令 。 请 注意 ， 前 递 消除 
了 其 他 几 种 潜在 冒险 ， 包括 第 一 条 add 指令 对 第 一 条 1d 指令 的 依赖 ， 以 及 sd 指令 带 来 的 
冒险 。 把 第 三 条 1d 指令 提前 为 第 三 条 指令 可 以 消除 这 两 个 冒险 : 

1d 1 ONSLY 

1d x2 BX3l) 

i 

sd RCACRSLY 


:obs OE 0 Ye. | 
sd EH BCRILY 


在 具有 前 递 的 流水 线 处 理 器 上 ， 执 行 重 新 排序 的 指令 序列 将 比 原始 版 本 快 两 个 时 钟 周期 。 一 。 


除 4.5.1 节 提 到 的 RISCV 的 三 个 特点 之 外 ， 前 递 引出 了 RISC-V 体系 结构 的 另 一 个 特 
点 。 即 每 条 RISC-V 指令 最 多 写 一 个 结果 ， 并 在 流水 线 的 最 后 一 个 阶段 执行 写 操作 。 如 果 
每 条 指令 有 多 个 结果 要 前 递 ， 或 者 需要 在 指令 执行 的 更 早 阶段 写 和 结果， 前 递 设计 会 复杂 
得 多 。 

[详细 阐述 “前 北 ” 这 个 名 称 来 源 于 将 结果 从 前 面 一 条 指令 直接 传递 给 后 面 一 条 指令 的 
思想 。“ 旁 路 ”这 个 名 称 来 源 于 将 结果 绕 过 寄存 器 堆 ， 直 接 传 递 给 需要 它 的 单元 的 思想 。 

控制 冒险 

第 三 种 冒险 称 为 控制 冒险 ， 出 现在 以 下 情况 : 需要 根据 一 条 指 | 控制 冒险 : 也 称 为 分 支 冒 
令 的 结果 做 出 决定 ， 而 其 他 指令 正在 执行 。 险 ， 由 于 取 到 的 指令 并 不 

假设 洗衣 店 的 工作 人 员 接 到 一 个 令 人 高 兴 的 任务 : 清洁 足球 队 | 六 是 生生 二 全 生生 
队 服 。 根 据 衣 服 的 污浊 程度 ， 需 要 确定 清洗 剂 的 用 量 和 水 温 设置 是 “| 预期 的 ， 导 致 正确 的 指令 
否 合适 ， 以 致 能 洗 净 衣物 又 不 会 由 于 清洗 剂 过 量 而 磨损 衣物 。 在 洗 | 无 法 在 正确 的 时 钟 周 期 内 
衣 流 水 线 中 ， 必 须 等 到 第 二 步 结束 ， 检 查 已 经 烘 干 的 衣服 ， 才 知道 “| 执行 
是 否 需 要 改变 洗衣 机 设置 。 这 种 情况 该 怎么 办 ? 

有 两 种 办 法 可 以 解决 洗衣 问题 中 的 控制 冒险 ， 也 适用 于 计算 机 中 的 相同 问题 ， 以 下 是 第 
一 种 办 法 。 

停顿 : 第 一 批 衣物 被 烘 干 之 前 ， 按 顺序 操作 ， 并 且 重 复 这 一 过 程 直到 找到 正确 的 洗衣 设 
置 为 止 。 

这 种 保守 的 方法 当然 有 效 ， 但 速度 很 慢 。 

计算 机 中 相同 的 问题 是 条 件 分 支 指令 。 请 注意 ， 在 取出 分 支 指令 后 ， 紧 跟着 在 下 一 个 
时 钟 周期 就 会 取 下 一 条 指令 。 但 是 流水 线 并 不 知道 下 一 条 指令 应 该 是 什么 ， 因 为 它 刚刚 从 存 
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储 器 中 取出 分 支 指令 ! 就 像 洗衣 问题 一 样 ， 一 种 可 能 的 解决 方案 是 在 取出 分 支 指令 后 立即 停 
顿 ， 一 直 等 到 流水 线 确 定 分 支 指令 的 结果 并 知道 要 从 哪个 地 址 取 下 一 条 指令 为 止 。 

假设 加 入 足够 多 的 额外 硬件 ， 使 得 在 流水 线 第 二 个 阶段 能 够 完成 测试 寄存 器 、 计 算 分 支 
目标 地 址 和 更 新 PC ( 详 见 4.8 节 )。 通 过 这 些 硬件 资源 ， 包 含 条 件 分 支 指令 的 流水 线 如 图 4-29 
所 示 。 如 果 分 支 指 令 的 条 件 不 成 立 ， 要 执行 的 指令 在 开始 执行 之 前 需 额 外 停顿 一 个 时 钟 周期 
( 200ps)。 


执行 顺序 ”时间 
(以 指令 计 ) 


200 400 600 800 1000 1200 1400 


add x4, x5, x6 


beq x1, x0, 40 


Or x7, x8, x9 





图 4-29 每 遇 到 条 件 分 支 指令 就 停顿 以 避免 控制 冒险 的 流水 线 。 本 例假 定 条 件 分 支 指令 发 生 
跳 转 ， 并 且 分 支 目 标 地 址 处 的 指令 是 or 指令 。 分 支 指令 后 会 插入 一 个 周期 的 停顿 
或 气泡 。 我 们 将 在 4.8 节 中 看 到 ， 实 际 中 产生 一 次 停顿 的 过 程 要 更 复杂 。 这 种 方法 
对 性 能 的 影响 与 插入 一 个 气泡 是 一 样 的 


| 例题 | 分 支 指令 停顿 的 性 能 一 
估计 对 分 支 指令 带 来 的 停顿 对 指令 时 钟 周期 数 ( CPI) 的 影响 。 假 设 其 他 指令 的 CPI 均 

为 1. 

| 答案 | 图 3-28 表明 在 SPEC int2006 中 ， 条 件 分 支 指令 占 执行 指令 的 17%。 由 于 其 他 指令 的 

CPI 为 1， 而 条 件 分 支 指令 由 于 停顿 多 一 个 时 钟 周期 ， 所 以 平均 CPI 为 1.17， 与 理想 情况 相 

比 ， 速 度 下 降 了 1.17 倍 。 


对 较 长 的 流水 线 而 言 ， 通 常 无 法 在 第 二 阶段 解决 分 支 指令 的 问题 ， 那 么 如 果 每 个 条 件 分 
支 指令 都 停顿 ， 将 导致 更 严重 的 速度 下 降 。 对 大 多 数 计算 机 来 说 ， 这 种 方法 的 代价 太 大 ， 根 
据 第 1 章 中 的 伟大 思想 ， 由 此 产生 了 解决 控制 冒险 的 第 二 个 方法 : 

预测 : 如 果 你 确定 清洗 队 服 的 设置 是 正确 的 ， 就 预测 它 可 以 工作 ， 那 么 在 等 待 第 一 批 衣 
服 被 烘 干 的 同时 清洗 第 二 批 衣服 。 

如 果 预 测 正确 ， 这 个 方法 不 会 减 慢 流水 线 。 但 是 如 果 预 测 错误 ， 就 需要 重新 清洗 做 预测 
时 所 清洗 的 那些 衣服 。 

计算 机 确实 采用 闯 测 来 处 理 条 件 分 支 。 一 种 简单 的 方法 是 总 是 预测 条 件 分 支 指令 不 发 
生 跳 转 。 如 果 预 测 正确 ， 流 水 线 将 全 速 前 进 。 只 有 条 件 分 支 指令 发 生 跳 转 时 ,流水线 才 会 停 
顿 。 图 4-30 给 出 了 这 样 一 个 例子 。 

更 成 熟 的 分 支 预测 是 预测 一 些 条 件 分 支 指令 发 生 跳 转 ， 而 另 一 ns 
些 不 发 生 跳 转 。 在 洗衣 的 类 比 中 ,夜晚 和 主场 比赛 的 队 服 采用 一 种 “| 的 站 果 并 沁 预 测 方向 执 
洗衣 设置 ， 而 白天 和 客场 比赛 的 队 服 则 采用 另 一 种 设置 。 在 计算 机 | 行 , 而 不 是 等 分 支 结果 确 
程序 中 ,循环 底部 是 条 件 分 支 指 令 ， 并 会 跳 转 回 到 循环 的 顶部 。 由 | 定 后 才 开 始 执行 。 














程序 
执行 顺序 ”时间 
( 以 指令 计 ) 


200 400 600 800 1000 1200 1400 


add x4, x5, x6 
beq x1, x0, 40 


ld x3, 400(x0) 





程序 
执行 顺序 “时间 200 400 600 800 1000 1200 1400 
( 以 指令 计 ) 


add x4, x5, x6 


beq x1, x0, 40 


Ca ) A ee 
图 4-30 ”预测 分 支 不 发 生 是 一 种 控制 冒险 的 解决 方案 。 上 图 表示 分 支 不 发 生 时 的 流水 线 ， 下 
图 表示 分 支 发 生 时 的 流水 线 。 正 如 图 4-29 说 明 的 那样 ， 这 种 插入 气泡 的 方式 实际 
是 一 种 简化 的 方法 ， 至 少 对 紧 跟 分 支 指令 的 下 一 个 时 钟 周期 而 言 是 这 样 。4.8 节 将 
介绍 其 中 细节 


这 种 分 支 预测 方法 依赖 于 始终 不 变 的 行为 ， 没 有 考虑 到 特定 分 支 指令 的 特点 。 与 之 形成 
鲜明 对 比 的 是 ,动态 硬件 预测 器 根据 每 个 条 件 分 支 指令 的 行为 进行 预测 ， 并 在 程序 生命 周期 
内 可 能 改变 条 件 分 支 的 预测 结果 。 对 于 洗衣 例子 ,使 用 动态 预测 方法 ， 一 名 店员 查看 队 服 的 
污浊 程度 并 预测 洗衣 设置 ， 同 时 根据 最 近 的 成 功 预测 调整 下 一 次 的 疾 测 。 

动态 预测 的 一 种 常用 实现 方法 是 保存 每 个 条 件 分 支 是 否 发 生 分 支 的 历史 记录 ， 然 后 根据 
最 近 的 过 去 行为 来 预测 未 来 。 正 如 我 们 将 看 到 的 ， 历 史记 录 的 数量 和 类 型 足够 多 时 ， 动 态 分 
支 预测 器 的 正确 率 超 过 90% ( 见 4.8 节 )。 当 预测 错误 时 ， 流 水 线 控制 必须 确保 预测 错误 的 条 
件 分 支 指令 之 后 的 指令 执行 不 会 生效 ， 并 且 必 须 从 正确 的 分 支 地 址 处 重新 启动 流水 线 。 在 洗 
衣 例 子 中 ， 必 须 停 止 接受 新 的 任务 ， 以 便 可 以 重新 启动 预测 错误 的 任务 。 

如 同 其 他 解决 冒险 的 方案 一 样 ， 较 长 的 流水 线 会 恶化 预测 的 性 能 ， 并 增加 预测 错误 的 代 
价 。4.8 节 更 详细 地 介绍 了 控制 冒险 的 解决 方案 。 

| 详细 阐述 ”控制 冒险 的 第 三 种 解决 方法 称 为 延 信 决定 ( delayed decision)。 在 洗衣 例子 
中 ,每 当 需 要 做 出 有 关 洗 衣 的 决定 时 ， 只 需 在 等 待 足球 队 服 被 烘 干 的 同时 ， 向 洗衣 机 中 放 入 
一 批 非 足球 队 服 的 衣服 。 只 要 有 足够 多 不 受 决 定 影响 的 脏 衣服 ， 这 个 方案 就 可 以 正常 工作 。 

在 计算 机 中 这 种 方法 被 称 为 延迟 转移 ， 也 就 是 MIPS 架构 实际 使 用 的 解决 方案 。 延 迟 转 
移 顺 序 执行 下 一 条 指令 ， 并 在 该 指令 后 执行 分 支 。 由 于 汇编 器 可 以 自动 排序 指令 ， 使 得 分 支 
指令 的 行为 达到 程序 员 的 期 望 ， 所 以 这 个 过 程 对 MIPS 汇编 语言 程序 员 来 说 不 可 见 。MIPS 
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软件 会 在 延迟 转移 指令 的 后 面 放 一 条 不 受 该 分 支 影响 的 指令 ,并且 发 生 转 移 的 分 支 指令 会 改 
变 这 条 安全 指令 后 的 指令 地 址 。 在 图 4-29 中 ， 分 支 指令 前 的 add 指令 不 影响 转移 ， 所 以 可 
以 把 它 移动 到 分 支 指令 之 后 以 完全 隐藏 分 支 延迟 。 因 为 只 有 当 分 支 延 迟 较 短 时 延迟 分 支 才 有 
效 ， 所 以 很 少 有 处 理 器 使 用 超过 一 个 时 钟 周期 的 延迟 转移 。 对 于 较 长 的 分 支 延迟 ,通常 使 用 
基于 硬件 的 分 支 预 测 。 


4.5.3 总 结 


流水 线 技术 是 一 种 在 顺序 指令 流 中 开发 指令 间 艺 答 性 的 技术 。 与 多 处 理 器 编程 相 比 ， 
其 优点 在 于 它 对 程序 员 是 不 可 见 的 。 

在 接 下 来 的 几 节 中 ， 我 们 将 通过 4.4 节 RISC-V 指令 子 集 的 单 周期 实现 及 其 简化 的 流水 
线 实现 ， 来 介绍 流水 线 的 相关 概念 。 接 着 着 眼 于 渗 录 线 所 带 来 的 问题 以 及 流水 线 在 典型 情况 
下 可 获得 的 性 能 提升 。 

如 果 想 了 解 更 多 软件 和 流水 线 对 性 能 的 影响 ， 你 现在 有 足够 的 背景 可 以 跳 到 4.10 节 。 
4.10 节 介 绍 高 级 流水 线 的 概念 ， 如 超标 量 和 动态 调度 。4.11 节 介绍 最 新 微 处 理 器 的 流水 线 。 

或 者 ， 如 果 想 深入 了 解 如 何 实现 流水 线 和 如 何 处 理 冒 险 ， 可 以 继续 阅读 后 面 几 节 。4.6 
节 介绍 流水 线 数据 通路 和 基本 控制 的 设计 。 在 此 基础 上 ， 你 可 以 在 4.7 节 中 学 习 前 递 和 停顿 
的 实现 。 紧 接着 4.8 节 介 绍 控制 冒险 的 解决 方案 ，4.9 节 中 介绍 如 何 处 理 例 外 。 

| 理解 程序 性 能 除 存储 系统 以 外 ， 流 水 线 的 有 效 操作 是 决定 处 理 器 CPI 及 其 性 能 的 最 重 
要 因素 。 正 如 我 们 将 在 4.10 节 看 到 的 那样 ， 现 代 多 发 射流 水 线 处 理 器 的 性 能 是 复杂 的 ， 因 为 
它 不 仅仅 存在 简单 流水 线 处 理 器 中 出 现 的 问题 。 不 管 怎样 ， 结 构 冒 险 、 数 据 冒 险 和 控制 冒险 
在 简单 的 流水 线 和 更 复杂 的 流水 线 处 理 器 中 都 很 重要 。 

对 于 现代 流水 线 而 言 ， 结 构 冒 险 通常 出 现在 浮 点 单元 周围 ， 而 浮 点 单元 可 能 不 是 完 
水 线 化 的 。 而 控制 冒险 通常 出 现在 定点 程序 中 ， 因 为 其 中 条 件 分 支 指令 出 现 的 频率 更 高 ， 也 
更 难 预测 。 数 据 冒 险 在 定点 和 浮 点 程序 中 都 可 能 成 为 性 能 瓶颈 。 浮 点 程序 中 的 数据 冒险 通常 
更 容易 处 理 ， 因 为 其 中 条 件 分 支 指令 的 频率 更 低 并 且 存储 访问 更 规则 ， 这 使 编译 器 能 够 调度 
各 令 以 避免 冒险 。 而 由 于 定点 程序 的 存储 器 访问 更 不 规则 且 包 含 大 量 指针 ， 实 现 这 样 的 优化 
更 困难 。 正 如 我 们 将 在 4.10 节 中 看 到 的 那样 ， 有 很 多 编译 器 和 基于 硬件 的 技术 通过 调度 减少 
数据 间 的 依赖 。 

| 于 卉 :项 绽 绒 增加 了 可 同时 执行 的 指令 数目 以 及 指令 开始 和 | 延迟 (流水 线 )。 流 水 线 的 
结束 的 速率 。 流 水 线 并 不 能 减少 执行 单条 指令 所 需 时 间 ， 即 延迟 | 阶段 数 ， 或 执行 过 程 中 丙 
(latency)。 例 如 ， 一 个 五 级 流水 线 仍然 需要 五 个 时 钟 周期 才能 完成 ”| 条 指令 间 的 阶段 歼 。 
一 条 指令 。 用 第 1 章 中 使 用 的 术语 来 描述 就 是 流水 线 提 高 了 指令 知 
吐 率 ， 而 不 是 减少 了 单条 指令 的 执行 时 间或 延迟 。 

对 于 流水 线 设计 者 来 说 ， 指 令 系统 既 可 能 将 事物 简单 化 ， 也 可 能 将 事物 复杂 化 。 流 水 线 
设计 者 必须 解决 结构 冒险 、 控 制 冒 险 和 数据 冒险 。 分 支 项 测 和 前 递 能 够 在 保证 得 到 正确 结果 
的 前 提 下 提高 计算 机 性 能 。 





对 于 下 面 的 每 个 代码 序列 ， 说 明 它 是 否 必须 停顿， 或 者 只 使 用 前 过 就 可 以 
如 入 他 。 或 者 中 不 需要 个 也 不 需要 半 递 就 可 以 执行 。 me 
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4.6 ”流水 线 数据 通路 和 控制 


图 4-31 显示 了 4.4 节 中 提 到 的 单 周 期 数据 通路 ， 并 且 标 识 了 流 | 眼中 所 看 到 的 东西 比 实际 
水 线 阶段 。 将 指令 划分 成 五 个 阶段 意味 着 五 级 流水 线 ， 还 意味 着 在 | 上 要 复杂 。 
任意 单 时 钟 周 期 里 最 多 执行 五 条 指令 。 相 应 的 ， 我 们 必须 将 数据 通 | 2 ooe 人 
路 划分 成 五 个 部 分 ,将 每 个 部 分 用 对 应 的 指令 执行 阶段 来 命名 : 

1. IF: 取 指 令 

2. ID: 指令 译 码 和 读 寄存 器 堆 

3. EX: 执行 或 计算 地 址 

4. MEM: 数据 存储 器 访问 

5. WB: 写 回 


IF: 取 指 令 


ID: 指令 译 码 / 读 
寄存 器 堆 


EX: 执行 /计算 地 址 MEM: 存储 器 访问 WB: 写 回 
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图 4-31 4.4 节 中 的 单 周期 数据 通路 (与 图 4-17 类 似 )。 指 令 执 行 的 每 一 步 都 从 左 至 右 地 映 
射 到 数据 通路 中 。 唯 一 的 例外 是 PC 更 新 与 写 回 的 步骤 (在 图 中 用 灰色 表示 )， 以 上 
步骤 发 送 ALU 运算 结果 或 存储 中 的 数据 到 左 侧 ， 写 入 寄存 器 堆 中 (通常 我 们 使 用 
灰 线 表示 控制 ,但 在 这 里 表示 数据 通路 ) 





在 图 4-31 中 ， 这 五 个 部 分 与 图 中 数据 通路 的 绘制 方式 是 对 应 的 ， 指 令 和 数据 通常 随 着 
执行 过 程 从 左 到 右 依 次 通过 这 五 个 阶段 。 再 回 到 我 们 的 洗衣 类 比 ， 在 通过 工作 线路 时 衣服 依 
次 被 清洁 、 烘 和 干 和 整理 ， 同 时 永远 不 会 逆向 移动 。 

然而 ， 在 从 左 到 右 的 指令 流动 过 程 中 存在 两 个 特殊 情况 : 

e 在 写 回 阶段 ， 它 将 结果 写 回 位 于 数据 通路 中 段 的 寄存 器 堆 中 。 

e 在 选择 下 一 PC 值 时 ， 在 自 增 PC 值 与 MEM 阶段 的 分 支 地 址 之 间 进 行 选择 。 

从 右 到 左 的 数据 流向 不 会 对 当前 的 指令 造成 影响 ， 这 种 反 向 的 数据 流动 只 会 影响 流水 线 
中 的 后 续 指 令 。 需 要 注意 的 是 ， 第 一 种 特殊 情况 会 导致 数据 冒险 ， 第 二 种 会 导致 控制 冒险 。 

一 种 表示 流水 线 数据 通路 如 何 执行 的 方法 是 假定 每 一 条 指令 都 有 独立 的 数据 通路 ， 然 后 
将 这 些 数据 通路 放 在 同一 时 间 轴 上 来 表示 它们 之 间 的 关系 。 图 4-32 通过 在 公共 时 间 轴 上 显 
示 私 有 数据 通路 来 表示 图 4-27 中 的 指令 的 执行 。 我 们 使 用 图 4-31 中 的 数据 通路 的 格式 来 表 
示 图 4-32 中 的 关系 。 


时 间 ( 以 时 钟 周期 计 ) 
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图 4-32 使 用 图 4-31 中 的 单 周 期 数据 通路 执行 的 指令 ， 假 设 指令 以 流水 线 方式 执行 。 类 似 
于 图 4-26~ 图 4-28， 该 图 假设 每 条 指令 都 有 自己 独立 的 数据 通路 ， 并 且 根据 使 用 情 
况 将 相应 的 部 分 涂 上 阴影 。 与 那些 图 不 同 的 是 ， 每 个 阶段 都 被 该 阶段 使 用 的 物理 资 
源 标 记 ， 分 别 对 应 于 图 4-31 中 数据 通路 相应 的 部 分 。IM 表示 指令 寄存 器 和 取 值 阶 
段 的 PC，Reg 表示 指令 译 码 / 寄存 器 读 取 阶 段 (ID ) 的 寄存 器 堆 和 符号 扩展 单元 ， 
等 等 。 为 了 保持 正确 的 时 序 ， 这 种 形式 化 的 数据 通路 将 寄存 器 堆 划分 成 两 个 逻辑 部 
分 : 寄存 器 读 取 阶 段 (ID) 的 寄存 器 读 和 写 回 (WB) 阶段 的 寄存 器 写 。 这 种 复 用 被 
表示 为 : 在 ID 阶段 ， 当 寄存 器 堆 没 有 被 写 人 时 ， 使 用 虚线 绘制 未 被 着 色 的 寄存 器 
堆 的 左 半 部 分 ; 在 WB 阶段 ， 当 寄存 器 堆 没 有 被 读 取 时 ， 使 用 虚线 绘制 未 被 着 色 
的 寄存 器 堆 的 右 半 部 分 。 与 前 文 一 致 ， 我 们 假设 寄存 器 堆 是 在 时 钟 周期 的 前 半 部 分 
写 入 的 ， 在 时 钟 周期 的 后 半 部 分 被 读 取 


图 4-32 似乎 表明 三 条 指令 需要 三 条 数据 通路 ， 但 事实 上 ， 我 们 可 以 通过 引入 寄存 器 保 
存 数 据 的 方式 ， 使 得 部 分 数据 通路 可 以 在 指令 执行 的 过 程 中 被 共享 。 

举例 来 说 ， 如 图 4-32 所 示 ， 指 令 存 储 器 只 在 指令 的 五 个 阶段 中 的 一 个 阶段 被 使 用 ， 而 
在 其 他 四 个 阶段 中 允许 被 其 他 指令 共享 。 为 了 保留 在 其 他 四 个 阶段 中 的 指令 的 值 ， 必 须 把 从 
指令 存储 器 中 读 取 的 数据 保存 在 寄存 器 中 。 类 似 的 理由 适用 于 每 个 流水 线 阶 段 ， 所 以 我 们 必 
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须 将 寄存 器 放置 在 图 4-31 中 每 个 阶段 之 间 的 分 隔 线 上 。 再 回 到 洗衣 例子 中 ， 我 们 会 在 每 两 
个 步骤 之 间 放 置 一 个 篮子 ， 用 于 存放 为 下 一 步 所 准备 的 衣服 。 
图 4-33 显示 了 流水 线 数 据 通路 ， 其 中 的 流水 线 寄存 器 被 高 亮 表 示 。 所 有 指令 都 会 在 每 
一 个 时 钟 周 期 里 从 一 个 流水 线 寄存 器 前 进 到 下 一 个 寄存 器 中 。 寄 存 器 的 名 称 由 两 个 被 该 寄存 
器 分 开 的 阶段 的 名 称 来 命名 。 例 如 ，IF 和 ID 阶段 之 间 的 流水 线 寄存 器 被 命名 为 IF/ID。 


IFiD ID/EX EX/MEM MEM/WB 





图 4-33 图 4-31 数据 通路 的 流水 线 版 本 。 在 图 中 用 灰色 表示 的 流水 线 寄存 器 将 流水 线 的 各 
阶段 分 开 。 它 们 被 标记 为 被 它们 所 分 开 的 阶段 ， 例 如 ， 第 一 个 流水 线 寄 存 器 被 标记 
为 IF/ID， 因 为 它 将 取 值 和 指令 译 码 阶段 分 开 。 寄 存 器 的 位 宽 必 须 足 够 大 以 存储 通 
过 它们 的 所 有 数据 。 例 如 ，IF/ID 寄存 器 的 位 宽 必 须 为 96 位 ， 因 为 它 需 要 同时 存 
储 从 存储 器 中 提取 出 的 32 位 指令 以 及 自 增 的 64 位 PC 地 址 。 我 们 将 在 本 章 中 逐渐 
增加 这 些 寄存 器 的 位 宽 ， 不 过 目前 ， 其 他 三 个 流水 线 寄存 器 的 位 宽 分 别 为 256 位 、 
193 位 和 128 位 


需要 注意 的 是 ， 在 写 回 阶段 的 最 后 没有 流水 线 寄 存 器 。 所 有 的 指令 都 必须 更 新 处 理 器 中 
的 某 些 状态 ， 如 寄存 器 堆 、 存 储 器 或 PC 等 ， 因 此 ， 单 独 的 流水 线 寄 存 器 对 于 已 经 被 更 新 的 
状态 来 说 是 多 余 的 。 例 如 ， 加 载 指令 将 它 的 结果 放 和 人 32 个 寄存 器 中 的 一 个 ， 此 后 任何 需要 
该 数据 的 指令 只 需要 简单 地 读 取 相应 的 寄存 器 即 可 。 

当然 ， 每 条 指令 都 会 更 新 PC， 无 论 是 通过 自 增 还 是 通过 将 其 设置 为 分 支 目 标 地 址 。PC 
可 以 被 看 作 一 个 流水 线 寄存 器 : 它 给 流水 线 的 IF 阶段 提供 数据 。 不 同 于 图 4-33 中 被 标记 阴 
影 的 流水 线 寄存 器 ，PC 是 可 见 体系 结构 状态 的 一 部 分 ， 在 发 生 例外 时 ，PC 中 的 内 容 必须 被 
保存 ， 而 流水 线 寄存 器 中 的 内 容 则 可 以 被 丢弃 。 在 洗衣 的 例子 中 ， 你 可 以 将 PC 看 作 在 清洗 
步骤 之 前 盛 放 脏 衣服 的 篮子 。 

为 了 说 明 流 水 线 的 工作 原理 ， 在 本 章 中 ,我 们 使 用 一 系列 图 片 来 演示 这 一 系列 操作 。 
rt eg rt 
理解 ， 因 为 你 可 以 通过 对 比 来 观察 每 个 时 钟 周期 中 发 生 的 变化 。4.7 节 描 述 了 当 指 令 流 水 线 
中 存在 数据 冒险 时 的 情况 ， 现 在 请 先 忽略 它们 。 

图 4-34 一 图 4-37 是 我 们 的 第 一 个 序列 ， 显 示 了 加 载 指令 在 通过 流水 线 的 五 个 阶段 时 
数据 通路 高 亮 的 活动 部 分 。 我 们 首先 展示 加 载 指令 是 因为 它 在 五 个 阶段 中 都 是 活跃 的 。 如 








图 4-26 一 图 4-28 所 示 ， 当 寄存 器 或 存储 器 被 读 取 时 ， 我 们 高 亮 显 示 它 们 的 右 半 部 分 ; 当 它 
们 被 写 入 时 ， 我 们 高 亮 显示 它们 的 左 半 部 分 。 
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图 4-34 IF 和 ID : 一 条 指令 在 指令 流水 线 中 的 第 一 和 第 二 步 ， 图 4-33 中 数据 通路 的 活跃 部 
分 被 高 亮 显示 。 这 种 高 亮 的 表示 方法 与 图 4-26 中 的 表示 相同 。 如 4.2 节 所 述 ， 读 
写 寄 存 器 时 不 会 发 生 混乱 ， 这 是 因为 寄存 器 中 的 内 容 仅 在 时 钟 边沿 上 发 生变 化 。 尽 
管 在 阶段 二 中 加 载 指令 只 需要 寄存 器 1 中 的 值 ， 但 是 处 理 器 此 时 并 不 知道 当前 是 哪 
一 条 指令 正在 被 译 码 ， 因 此 处 理 器 将 符号 扩展 后 的 16 位 常量 以 及 两 个 寄存 器 中 的 
值 都 存 人 ID/EX 流水 线 寄 存 器 中 。 我 们 并 不 一 定 需要 全 部 的 这 三 个 操作 数 ， 但 是 
保留 全 部 三 个 操作 数 可 以 简化 控制 


我 们 在 图 中 标识 出 指令 1d 在 每 一 副 图 中 的 活路 流水 阶段 。 这 五 个 阶段 如 下 : 











1. 取 指 : 图 4-34 的 顶端 描绘 了 使 用 PC 中 的 地 址 从 存储 器 中 读 取 指令 ， 然 后 将 指令 放 人 
IF/ID 流水 线 寄 存 器 中 。PC 中 的 地 址 自 增 4, 然后 写 回 PC， 以 为 下 一 时 钟 周期 做 准备 。 这 个 
PC 值 也 保存 在 IF/ID 流水 线 寄存 器 中 ， 以 备 后 续 的 指令 使 用 (例如 beq)。 计 算 机 并 不 知道 
当前 正在 提取 的 是 哪 一 种 指令 ， 因 此 它 必 须 为 任何 一 种 指令 做 好 准备 ， 并 且 将 所 有 可 能 有 用 
的 信息 沿 流水 线 传递 出 去 。 

2. 指令 译 码 和 读 寄 存 器 堆 : 图 4-34 的 底部 显示 了 IF/ID 流水 线 寄存 器 的 指令 部 分 ， 该 指 
令 提 供 一 个 64 位 符号 扩展 的 立即 数字 段 ， 以 及 两 个 将 要 读 取 的 寄存 器 编号 。 所 有 这 三 个 值 
都 与 PC 地 址 一 起 存储 在 ID/EX 流水 线 寄存 器 中 。 在 这 里 我 们 再 次 向 右 传 递 在 之 后 的 时 钟 周 
期 里 指令 可 能 用 到 的 所 有 信息 。 

3. 执行 或 地 址 计算 : 图 4-35 显示 了 加 载 指令 从 ID/EX 流水 线 寄存 器 中 读 取 一 个 寄存 
器 的 值 和 一 个 符号 扩展 的 立即 数 ， 并 且 使 用 ALU 部 件 将 它们 相 加 ， 它 们 的 和 被 存储 在 EX/ 
MEM 流水 线 寄存 器 中 。 


id 
执行 
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图 4-35 EX : 加 载 指令 在 指令 流水 线 中 的 第 三 个 阶段 ， 高 亮 显示 该 阶段 中 使 用 的 图 4-33 中 
的 数据 通路 部 分 。 将 寄存 器 中 的 值 与 符号 扩展 后 的 立即 数 相 加 ， 并 将 和 放 和 人 EX/ 
MEM 流水 线 寄存 器 中 


4. 存储 器 访问 : 图 4-36 的 顶部 显示 了 加 载 指令 使 用 来 自 EX/MEM 流水 线 寄 存 器 中 的 地 
址 读 取 数 据 存储 器 ， 并 将 数据 存 人 MEM/WB 流水 线 寄存 器 中 。 

5. 写 回 : 图 4-36 的 底部 显示 了 最 后 一 步 : 从 MEM/WB 流水 线 寄存 器 中 读 取 数据 ， 并 将 
它 写 人 图 中 间 的 寄存 器 堆 中 。 

对 加 载 指令 的 演示 表明 ， 在 后 续 流 水 线 阶段 所 需 的 任何 信息 ， 都 需要 通过 流水 线 寄存 器 
传递 。 存 储 指令 的 执行 过 程 也 与 此 过 程 类 似 ， 需 要 将 信息 传递 给 后 续 阶 段 。 下 面 是 存储 指令 
的 五 个 执行 步骤 : 

1. 取 指 : 使 用 PC 中 的 地 址 从 存储 器 中 读 取 指令 ， 然 后 将 其 放 人 IF/ID 流水 线 寄存 器 中 。 
该 阶段 发 生 在 指令 被 识别 之 前 ， 因 此 图 4-34 的 顶端 同时 适用 于 加 载 和 存储 指令 。 
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ld 
存 情 央 访 问 








图 4-36 MEM 和 WB : 加 载 指令 在 指令 流水 线 中 的 第 四 、 第 五 阶段 ， 高 亮 显示 该 阶段 中 使 
用 的 图 4-33 中 的 数据 通路 部 分 。 利 用 EX/MEM 流水 线 寄存 器 中 的 地 址 读 取 数 据 
存储 器 ， 之 后 将 该 数据 存储 到 MEM/WB 流水 线 寄存 器 中 。 接 下 来 ， 数 据 从 MEM/ 
WB 流水 线 寄存 器 中 被 读 取 ， 然 后 写 人 数据 通路 中 间 的 寄存 器 堆 中 。 注 意 : 这 个 设 
计 中 存在 一 个 错误 ， 将 在 图 4-39 中 修复 


2. 指令 译 码 和 读 寄 存 器 堆 : IF/ID 流水 线 寄存 器 中 的 指令 提供 了 用 于 读 取 寄存 器 的 两 个 
寄存 器 编号 以 及 一 个 符号 扩展 的 立即 数 。 这 三 个 64 位 的 值 都 存储 在 ID/EX 流水 线 寄 存 器 中 。 
图 4-34 的 底 端 既 可 以 表示 加 载 指令 ， 也 可 以 表示 存储 指令 的 第 二 个 流水 阶段 。 因 为 此 时 还 
不 知道 指令 的 类 型 ， 所 以 所 有 的 指令 都 会 执行 这 两 个 阶段 。( 虽 然 存 储 指令 使 用 rs2 字段 读 取 
本 流水 线 阶段 中 的 第 二 个 寄存 器 ,但 是 该 流水 线 图 中 并 未 显示 这 个 细节 ， 因 此 我 们 可 以 使 用 
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相同 的 图 表 。) 
3. 指令 执行 和 地 址 计算 : 图 4-37 显示 了 指令 流水 线 中 的 第 三 步 ， 有 效 地 址 被 存放 在 EX/ 
MEM 流水 线 寄存 器 中 。 


IFHID ID/EX EX/MEM MEM/WB 

















图 4-37 EX : 存储 指令 在 流水 线 中 的 第 三 个 阶段 。 不 同 于 图 4-35 中 加 载 指令 的 第 三 个 流水 
阶段 ， 第 二 个 寄存 器 中 的 值 被 加 载 到 EX/MEM 流水 线 寄存 器 中 以 用 于 下 一 个 阶段 。 
尽管 总 是 将 第 二 个 寄存 器 中 的 值 写 人 EX/MEM 流水 线 寄存 器 中 不 会 造成 任何 影响 ， 
但 为 了 使 流水 线 更 容易 被 理解 ， 我 们 仅 在 存储 指令 中 写 第 二 个 寄存 器 中 的 值 


4. 存储 器 访问 : 图 4-38 的 顶端 显示 了 正在 被 写 人 存储 器 的 数据 。 需 要 注意 ， 包 含 要 被 
存储 的 数据 的 寄存 器 在 较 早 的 流水 线 阶 段 就 已 经 被 读 取 并 存储 在 ID/EX 流水 线 寄 存 器 中 。 在 
MEM 阶段 获得 这 个 数据 的 唯一 方法 就 是 在 EX 阶段 中 将 该 数据 放 入 EX/MEM 流水 线 寄 存 器 
中 ， 就 像 我 们 将 有 效 地 址 存储 在 EX/MEM 中 那样 。 

5. 写 回 。 图 4-38 的 底 端 显示 了 存储 指令 的 最 后 一 步 。 对 存储 指令 来 说 ， 在 写 回 阶段 不 
会 发 生 任 何事 情 。 由 于 存储 指令 之 后 的 每 一 条 指令 都 已 经 进入 流水 线 中 ， 所 以 我 们 无 法 加 速 
这 些 指令 。 因 此 ， 任 何 指令 都 要 经 过 流水 线 中 的 每 一 个 阶段 ， 即 使 它 在 这 个 阶段 没有 任何 事 
情 要 做 ， 因 为 后 续 指令 已 经 按照 最 大 速率 在 流水 线 中 进行 处 理 了 。 

存储 指令 再 次 说 明了 如 果 要 将 相关 信息 从 之 前 的 流水 线 阶段 传递 到 后 续 的 流水 线 阶段 ， 
就 必须 将 它们 放置 在 流水 线 寄存 器 中 。 和 否则 ， 当 下 一 条 指令 进入 流水 线 时 ， 该 信息 就 会 丢 
失 。 对 于 存储 指令 来 说 ， 我 们 需要 将 在 ID 阶段 读 取 的 寄存 器 信息 传递 到 MEM 阶段 ， 然 后 
写 和 人 存储 器 中 。 这 些 数据 最 初 放 置 在 ID/EX 流水 线 寄 存 器 中 ， 之 后 被 传送 到 EX/MEM 流水 
线 寄存 器 中 。 

其 次 ， 加 载 和 存储 指令 还 说 明了 第 二 个 关键 点 : 在 流水 线 数据 通路 设计 中 的 每 一 个 逻辑 
部 件 (例如 指令 存储 器 、 寄 存 器 读 端口 、ALU 、 数 据 存储 器 、 寄 存 器 写 端 口 等 ) 只 能 在 单个 
流水 线 阶段 中 被 使 用 ， 否 则 就 会 发 生 结构 冒险 (参见 4.5.2 节 )。 因 此 ， 这 些 部 件 以 及 对 它们 
的 控制 只 能 与 一 个 流水 线 阶段 相关 联 。 
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图 4-38 MEM 和 WB : 存储 指令 在 流水 线 中 的 第 四 和 第 五 阶段 。 在 第 四 阶段 ， 利 用 EX/ 
MEM 流水 线 寄 存 器 中 的 地 址 读 取 数据 寄存 器 ， 并 将 读 取 的 数据 写 人 到 MEM/WB 
流水 线 寄存 器 中 。 一 旦 数据 被 写 和 存储器， 存储 指令 就 没有 任何 事情 可 做 ， 所 以 在 
第 五 阶段 中 没有 任何 事情 发 生 


现在 我 们 就 可 以 发 现 加 载 指令 设计 中 的 一 个 错误 。 你 发 现 了 吗 ? 在 加 载 指 令 流 水 的 WB 
阶段 改写 了 哪个 寄存 器 ? 更 具体 地 说 ， 此 时 的 寄存 器 号 是 哪 条 指令 提供 的 ? IF/ID 流水 线 寄 
存 器 中 的 指令 提供 了 写 人 寄存 器 编号 。 但 是 ， 这 条 指令 是 加 载 指 令 之 后 的 指令 了 (这 就 是 错 
误 所 在 )。 

因此 ， 我 们 需要 在 加 载 指令 的 流水 线 寄 存 器 中 保留 目标 寄存 器 编号 。 就 像 存储 指令 为 了 
MEM 阶段 的 使 用 而 将 寄存 器 值 从 ID/EX 中 传递 到 EX/MEM 流水 线 寄存 器 中 那样 ， 加 载 指 
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令 需 要 为 了 WB 阶段 的 使 用 而 将 寄存 器 编号 从 ID/EX 通过 EX/MEM 传递 到 MEM/WB 流水 
线 寄存 器 。 换 一 个 角度 来 看 ， 为 了 共享 流水 线 数 据 通路 ， 我 们 需要 在 IF 阶段 保存 读 取 的 指 
令 ， 因 此 每 个 流水 线 寄 存 器 都 要 保存 当前 阶段 和 后 续 阶 段 所 需 的 部 分 指令 信息 。 

图 4-39 展示 了 修正 后 的 数据 通路 的 正确 版 本 。 将 写 人 寄存 器 编号 先 传递 到 ID/EX 寄 
存 器 中 ， 然 后 传送 到 EX/MEM 寄存 器 ， 最 后 传送 到 MEM/WB 寄存 器 。 寄 存 器 编号 在 WB 
阶段 被 使 用 ， 指 定 了 要 写 入 的 寄存 器 。 图 4-40 是 修正 后 数据 通路 图 ， 它 高 亮 显 示 了 在 
图 4-34 一 图 4-36 中 的 加 载 指 令 在 所 有 五 个 流水 线 阶段 中 用 到 的 硬件 。4.8 节 解 释 了 如 何 使 分 
支 指令 按照 预期 的 方式 工作 。 


IFND ID/EX EXWMEM MEM/WB 











图 4-39 修正 后 的 流水 线 数 据 通路 ， 可 以 正确 处 理 加 载 指令 。 写 人 寄存 器 编号 和 数据 现在 来 
自 MEM/WB 流水 线 寄存 器 。 通 过 在 最 后 三 个 流水 线 寄存 器 中 额外 添加 5 位， 使 得 
这 个 寄存 器 编号 可 以 从 ID 流水 线 阶段 开始 传递 ,一 直到 达 MEM/WB 流水 线 寄存 
器 。 这 条 新 的 路 径 在 图 中 用 灰色 表示 





图 4-40 图 4-39 数据 路 径 中 用 于 加 载 指令 的 全 部 五 个 流水 线 阶段 的 部 分 
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4.6.1 ”流水 线 的 图 形 化 表示 


掌握 流水 线 技术 可 能 会 很 困难 ， 因 为 在 每 个 时 钟 周期 内 同时 有 多 条 指令 在 一 个 单数 据 
通路 中 执行 。 为 了 帮助 理解 ， 这 里 提供 了 两 种 基本 的 流水 线 图 ， 分 别 是 多 时 钟 周期 流水 线 图 
(如 图 4-32 ) 和 单 时 钟 周期 流水 线 图 (如 图 4-34 一 图 4-38 ) 。 多 时 钟 周期 流水 线 图 相对 来 说 
更 简单 ， 但 并 不 包含 所 有 细节 。 例 如 ， 考虑 如 下 的 5$ 条 指令 所 组 成 的 序列 : 


1d 人 类 
sub wh, 
add 又 让 2 
1d 中 虹 坟 
add X14， 


40(x1) 
2 
i: 
48(x1) 
pT 


图 4-41 是 这 组 指令 的 多 时 钟 周期 流水 线 图 。 与 图 4-23 中 的 洗衣 流水 线 类 似 ， 图 中 时 间 
从 左边 前 进 到 右边 ， 指 令 从 顶端 执行 到 底 端 。 沿 着 指令 轴 分 布 的 是 流水 线 的 各 个 阶段 ， 它 
们 占据 相应 的 时 钟 周期 。 这 种 形式 化 的 数据 通路 表示 了 图 形 化 流水 线 的 五 个 阶段 ， 不 过 也 可 
以 用 矩形 块 来 命名 每 个 流水 线 阶段 。 图 4-42 是 多 时 钟 周 期 流水 线 图 的 一 种 更 加 传统 的 版 本 。 
需要 注意 的 是 ， 图 4-41 显示 了 在 每 个 流水 线 阶段 中 使 用 的 物理 资源 ， 而 图 4-42 显示 了 每 个 
流水 线 阶段 的 名 称 。 


程序 执行 顺序 
( 以 指令 计 ) 


ld x10, 40(x1) 


Sub x11, x2, x3 


add x12, x3, x4 


ld x13, 48(x1) 


add x14, x5, x6 


时 间 ( 以 时 钟 周期 计 ) 


CC 1 





CC 2 CC 3 CC 4 CC 5 CC6 CC7 CC8 CC39 





图 4-41 五 条 指令 的 多 时 钟 周期 流水 线 图 。 这 种 流水 线 表示 在 一 幅 图 内 展示 了 完整 的 指令 执 
行 过 程 。 指 令 在 “指令 执行 序列 ”中 从 土 到 下 执行 ， 时 钟 周期 从 左 向 右 移动 。 不 同 
于 图 4-26， 在 本 图 中 我 们 给 出 了 每 个 阶段 之 间 的 流水 线 寄存 器 。 图 4-42 给 出 了 本 
图 的 一 种 传统 画 法 








时 间 ( 以 时 钟 周期 计 ) ~ 
CC 1 CC2 CC 3 CC 4 CC 5 CC6 CC7 CC8 CC9 


取 指 | 译 码 | 执行 访 存 | 写 回 | 


程序 执行 顺序 
( 以 指令 计 ) 


Id x10, 40(x1) 









sub x11, x2, x3 








add x12, x3, x4 







ld x13, 48(x1) 





图 4-42 图 4-41 中 五 条 指令 的 多 时 钟 周期 流水 线 图 的 传统 画 法 


单 时钟 周 期 流水 线 图 显示 了 在 一 个 单 时 钟 周期 内 整个 数据 通路 的 状态 ,通常 所 有 五 条 指 
令 都 在 流水 线 中 ,被 各 自流 水 线 阶段 的 标签 所 标识 。 我 们 使 用 这 种 类 型 的 图 来 表示 每 个 时 钟 
周期 内 流水 线 中 所 发 生 的 事情 的 细节 。 通 常 ， 这 种 图 以 组 的 形式 出 现 ， 以 显示 一 系列 时 钟 周 
期 内 的 流水 线 操作 。 我 们 使 用 多 时 钟 周期 图 来 概括 描述 流水 线 情况 (如 果 你 想 要 了 解 图 4-41 
的 更 多 细节 ，4.13 节 中 给 出 了 更 多 关于 单 时 钟 图 的 说 明 )。 单 时 钟 周期 图 代表 在 一 组 多 时 钟 
周期 图 中 一 个 时 钟 周 期 的 垂直 切片 ， 展 示 了 流水 线 在 指定 时 钟 周 期 上 每 条 指令 对 数据 通路 的 
使 用 情况 。 例 如 ， 图 4-43 是 对 应 于 图 4-41 和 图 4-42 中 第 五 个 时 钟 周期 的 单 时 钟 周期 图 。 显 
然 ， 这 张 单 时 钟 周 期 图 包含 更 多 细节 ， 并 且 在 显示 相同 数量 的 时 钟 周 期 时 需要 占用 更 多 空 
间 。 在 练习 题 中 你 需要 为 其 他 的 代码 序列 创建 这 类 流水 线 图 。 


| add x14, x5, x6 | ld x13, 48(x1) | add x12, x3, x4 sub x11, x2, x3 ld x10, 40(x1) 
取 指 译 码 执行 访 存 写 回 


add x14, x5, x6 





IFID ID/EX EX/IMEM MEM/WB 





图 4-43 图 4-41 和 图 4-42 中 第 五 个 时 钟 周期 的 单 时 钟 周期 图 。 从 图 中 可 以 看 出 ， 单 时 钟 周 
期 图 就 是 多 时 钟 周 期 图 中 的 一 个 垂直 切片 





— | 
自我 检测 “一群 学 生 正 在 争论 五 阶段 流水 线 的 效率 ， 其 中 一 位 学 生 指 出 并 不 是 所 有 指令 在 每 个 
阶段 中 都 是 活跃 的 。 在 决定 忽略 冒险 的 影响 后 ， 他 们 做 出 了 以 下 四 条 陈述 ， 请 指出 哪些 是 正确 的 。 
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1 允许 分 支 和 ALU 指令 使 用 比 加 载 指令 所 需 的 五 级 更 少 的 流水 线 级 数 ， 这 样 做 可 以 在 所 有 情 














况 下 提升 流水 线性 能 。 eh 
2. 允许 一 些 指 令 使 用 更 少 的 时 钟 周期 并 不 能 提高 性 能 ， 因 为 春 吐 是 由 时 钟 周期 决定 的 ， 每 个 指 
令 所 使 用 的 流水 线 级 数 只 影响 延迟 ,并 不 影响 看 吐 。 ooh 
3. 因为 需要 写 回 结 ! 周期 需 
可 以 使 用 更 少 的 时 钟 周期 。 因 此 提升 性 能 的 机 会 还 是 存在 的 。 
“4 我 们 应 该 致力 于 使 得 流水 线 更 长 而 不 是 使 指令 使 用 更 少 的 时 钟 周期 。 虽 然 这 样 做 使 得 指令 
需要 更 多 的 时 钟 周期 ， 但 是 每 个 周期 变 得 更 短 了 ， 这 样 就 可 以 提升 性 能 。 
4.6.2 ”流水线 控制 
正如 我 们 在 4.4 节 中 将 控制 添加 到 单 周期 数据 通路 中 那样 ， 现 “| 直 许 CDG6600 计 算 机 中 


在 我 们 要 将 控制 添加 到 流水 线 数据 通路 中 。 我 们 从 一 个 简单 的 设计 | 的 控制 系统 不 同 于 之 前 所 
开始 ， 从 乐观 的 角度 来 看 待 这 个 问题 。 pi 

第 一 步 是 在 现 有 的 数据 通路 上 标记 控制 线 。 在 图 4-44 中 可 以 看 | 2 co 
到 这 些 线 。 我 们 尽 可 能 地 借鉴 图 4-17 中 简单 数据 通路 的 控制 还 辑 ， | sixo /9 
特别 地 ,我 们 使 用 相同 的 ALU 控制 逻辑 、 分 支 逮 辑 和 控制 线 ， 这 些 
功能 部 件 在 图 4-12、 图 4-16 和 图 4-18 中 定义 。 我 们 将 图 4-45 一 图 4-47 放 在 一 起 并 重 现 其 
中 的 关键 信息 ， 以 便 接 下 来 讨论 的 内 容 更 容易 被 理解 。 





MEM/WB 





anch 












图 4-44 带 有 控制 信和 号 标记 的 图 4-39 中 的 流水 线 数据 通路 。 这 个 数据 通路 借用 了 4.4 节 中 
的 PC 来源 的 控制 逻辑 、 目 标 寄 存 右 编号 和 ALU 控制 。 请 注意 ， 我 们 现在 需要 EX 
阶段 中 指令 的 功能 字段 作为 ALU 控制 的 输入 ， 因 此 这 些 位 也 必须 包含 在 ID/EX 流 
水 线 寄存 器 中 








操作 





ld 00 





| funct7 字 段 | funct3 字 段 |ALU 糊 间 行 为 | ALU 近 制 输入 
Dn | 
XXXXXXX XXX add 





























load doubleword 0010 
sd 00 store doubleword | XXXXXXX XXX add 0010 
beq 01 branch if equal XXXXXXX XXX subtract 0110 
R-type 10 add 0000000 000 add 0010 
R-type 10 sub 0100000 000 上 subtract 0110 
R-type 10 and 0000000 | 111 AND 0000 
R-type 10 | or | 0000000 110 OR 0001 




















图 4-45 图 4-12 的 副本 。 本 图 展示 了 如 何 根 据 ALUop 控制 位 和 不 同 的 R 型 指令 操作 码 来 
设置 ALU 控制 位 


无 效 时 的 效果 ( 置 0 ) 有 效 时 的 效果 ( 置 1 ) 
































RegWrite 无 被 写 的 寄存 器 号 来 自 Write register 信 号 的 输 
入 ， 数 据 来 自 Write data 信 号 的 输入 
ALUSrc 第 二 个 ALU 操 作 数 来 自 第 二 个 寄 | ”第 二 个 ALU 操 作 数 是 指令 的 低 12 位 符号 扩展 
存 器 堆 的 输出 ( 即 Read data 2 信 
| 号 的 输出 ) 
PCSrc | “PC 值 被 adder 的 输出 所 替换 ， 即 | “PC 值 被 adder 的 输出 所 替换 ， 即 分 支 目 标 
| PC+4 的 值 
MemRead 无 读 地 址 由 Address 信 号 的 输入 指定 ， 输 出 到 | 
Read data 信 号 的 输出 中 | 
MemWrite 无 写 地 址 由 Address 信 号 的 输入 指定 ， 写 入 内 | 
容 是 Write data 信 号 的 输入 中 的 值 
MemtoReg 寄存 器 写 数 据 的 输入 值 来 自 ALU| ”寄存 器 写 数据 的 输入 值 来 自 数 据 存 储 器 





图 4-46 图 4-16 的 副本 。 定 义 了 六 个 控制 信号 的 功能 ,ALU 控制 线 (ALUop) 定义 在 图 4-45 
的 第 二 列 中 。 当 一 个 二 路 选择 器 的 控制 位 有 效 时 ， 多 选 器 选择 与 1 相对 应 的 输入 ; 
否则 ， 如 果 控 制 位 无 效 ， 多 选 器 选择 与 0 相对 应 的 输入 。 需 要 注意 的 是 ，PCSrc 是 
由 图 4-44 中 的 与 门 控 制 的 ， 如 果 分 支 信号 和 ALU 零 信 号 都 有 效 ， 则 PCSrc 为 1， 
否则 为 0。 控 制 仅 在 beq 单元 中 才 设 置 分 支 信号 有 效 ， 其 他 时 候 PCSrc 都 为 0 

















介 段 控制 线 
Mem- Mem- Reg- Memto- 
R-format 410 | ® | © 0 1 | 0 | 
| 0 | 本 | 到 0 1 | i | 
sd | | 0 | 0 | 2 
beq ol | 0 i 0 | 0 x | 














图 4-47 根据 流水 线 的 最 后 三 个 阶段 划分 成 三 组 的 控制 线 ， 其 值 与 图 4-18 中 相同 


与 单 周期 实现 的 情况 一 样 ， 我 们 假定 PC 在 每 个 时 钟 周期 被 写 和 人， 因此 PC 没有 单独 的 
写 入 信和 号 。 同 理 ， 流 水 线 寄 存 器 (IF /ID、ID / EX、EX / MEM 和 MEM / WB) 也 没有 单独 
的 写 和 信号， 因为 流水 线 寄 存 器 也 在 每 个 时 钟 周期 内 都 被 写 人 。 

为 了 详细 说 明 流水 线 的 控制 ， 我 们 需要 在 每 个 流水 线 阶段 上 设置 控制 值 。 由 于 每 条 控制 
线 都 只 与 一 个 流水 线 阶 段 中 的 功能 部 件 相 关 ， 因 此 我 们 可 以 根据 流水 线 阶段 将 控制 线 也 划分 
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成 五 组 。 

1. 取 指 : 读 指 令 存 储 器 和 写 PC 的 控制 信号 总 是 有 效 的 ， 因 此 在 这 个 阶段 没有 什么 需要 
特别 控制 的 内 容 。 

2. 指令 译 码 / 读 寄存 器 堆 : 在 RISC-V 指令 格式 中 两 个 源 寄存 器 总 是 位 于 相同 的 位 置 ， 
因此 在 这 个 阶段 也 没有 什么 需要 特别 控制 的 内 容 。 

3. 执行 /地 址 计算 : 要 设置 的 信号 是 ALUOp 和 ALUSrc ( 见 图 4-45 和 图 4-46 )， 这 个 信 
号 选择 ALU 操作 ， 并 将 读数 据 2 或 者 符号 扩展 的 立即 数 作为 ALU 的 输入 。 

4. 存储 器 访问 : 本 阶段 要 设置 的 控制 线 是 Branch、MemRead 和 MemWrite。 这 些 信号 
分 别 由 相等 则 分 支 、 加 载 和 存储 指令 设置 。 除 非 控 制 电 路 标示 这 是 一 条 分 支 指令 并 且 ALU 
的 输出 为 0， 否则 将 选择 线性 地 址 的 下 一 条 指令 作为 PCSrc 信和 号。 

5. 写 回 : 两 条 控制 线 是 MemtoReg 和 RegWrite，MemtoReg 决定 是 将 ALU 结果 还 是 将 
存储 器 值 发 送 到 寄存 器 堆 中 ，RegWrite 写 人 所 选 值 。 

由 于 流水 线 数据 通路 并 没有 改变 控制 线 的 意义 ， 因 此 可 以 使 用 与 单数 据 通路 相同 的 控制 
值 。 图 4-47 中 是 和 4.4 节 中 相同 的 值 ， 不 过 现在 这 七 条 控制 线 按照 流水 线 阶段 进行 了 分 组 。 

实现 控制 意味 着 在 每 条 指令 的 每 个 阶段 中 将 这 七 条 控制 线 设置 为 这 些 值 。 

由 于 控制 线 从 EX 阶段 开始 ， 我 们 可 以 在 指令 译 码 阶段 为 之 后 的 阶段 创建 控制 信号 。 传 
递 这 些 控制 信号 最 简单 的 方式 就 是 扩展 流水 线 寄存 器 以 包含 这 些 控制 信息 。 图 4-48 显示 ， 
随 着 指令 沿 着 流水 线 向 下 流动 ， 这 些 控 制 信号 被 用 于 适当 的 流水 线 阶段 ， 就 像 图 4-39 中 目 
标 寄存 器 编号 随 着 加 载 指令 在 流水 线 中 流动 那样 。 图 4-49 显示 了 具有 扩展 流水 线 寄 存 器 并 
且 将 控制 线 连接 到 相应 流水 线 阶段 的 完整 数据 通路 。( 如 果 你 想 要 了 解 更 多 细节 ，4.13 节 以 
单 时 钟 图 表 的 形式 给 出 了 更 多 关于 RISC-V 代码 在 流水 线 硬 件 上 的 执行 示例 。) 






































| “| WB 
| 
| 古国 | 全 一 
Instructionl | | 
| Control | *| M .| WB | 
OI i 
\ i = Ge | 7 WB 
NS aH 
一 | el 
[eal 
IF/ID ID/EX EX/MEM MEM/WB 


图 4-48 最 后 三 个 阶段 的 七 条 控制 线 。 需 要 注意 的 是 ， 在 EX 阶段 使 用 了 七 条 控制 线 中 的 
两 条 ， 剩 下 的 五 条 被 传递 到 扩展 的 EX/MEM 流水 线 寄 存 器 中 以 保持 控制 线 ; 在 
MEM 阶段 中 使 用 了 三 条 控制 线 ， 最 后 两 条 传递 到 MEM/WB 寄存 器 用 于 WB 阶段 


208 和 锚 4 葬 


















































Instruction 
[30, 14-12] 


Instruction 
11-7] 











图 4-49 图 4-44 中 的 流水 线 数据 通路 ， 将 控制 信号 连接 到 流水 线 寄 存 器 中 的 控制 部 分 。 在 
指令 译 码 阶段 创建 之 后 三 个 阶段 的 控制 值 ， 然 后 将 其 置 于 ID/EX 流水 线 寄存 器 中 。 
流水 线 每 个 阶段 使 用 相应 的 控制 线 ， 其 余 的 控制 线 被 传递 到 下 一 个 流水 线 阶段 中 


4.7 数据 冒险 : 前 递 与 停顿 
上 一 节 的 示例 中 展示 了 流水 线 的 强大 功能 以 及 硬件 如 何 通 过 流 | 你 是 什么 意思 ， 你 问 我 为 
水 线 的 方式 执行 任务 。 现 在 从 一 个 更 实际 的 例子 出 发 ， 看 看 在 程序 | 什么 要 建立 穷 路 ? 人 
真正 执行 的 时 候 会 发 生 什 么 。 图 4-41 一 图 4-43 中 的 RISC-V 指令 是 i 
相互 独立 的 ， 没 有 用 到 其 他 任何 指令 计算 的 结果 。 然 而 , 在 4.5 节 | pippiters Guide io me 
中 ,我们 已 经 看 到 数据 冒险 是 流水 线 执行 的 阻碍 。 Gilaopr 
现在 来 看 一 个 存在 更 多 相关 的 指令 序列 ， 相 关 关 系 以 灰色 显示 : 


1 ,4 有 // Register z2 written by sub 

and 12 头 2 5 // lst operand(x2) depends on sub 

or WI XO Re // 2nd operand(x2) depends on sub 

add X14, Xe, 2 // lst(x2) & 2nd(x2) depend on sub 

sd X15, 100(x2) // Base (x2) depends on sub 

后 四 条 指令 (and、or、add、sd) 都 相关 于 第 一 条 指令 (sub) 中 得 到 的 存放 在 寄存 
器 x2 中 的 结果 。 假 设 寄存 器 x2 在 sub 指令 执行 之 前 的 值 为 10， 在 执行 之 后 值 为 -20， 那 
么 程序 员 和 希望 在 后 续 指令 中 引用 寄存 器 x2 时 得 到 的 值 为 -20。 

这 个 指令 序列 在 流水 线 中 是 如 何 执行 的 ? 图 4-50 使 用 了 多 时 钟 周期 流水 线 表 示 来 说 明 
这 些 指令 的 执行 。 为 了 在 我 们 当前 的 流水 线 中 演示 这 组 指令 序列 的 执行 ， 图 4-50 顶部 显示 
了 寄存 器 x2 的 值 ， 这 个 值 在 第 五 个 时 钟 周期 被 改变 ， 此 时 sub 指令 写 回 指令 的 执行 结果 。 
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时 间 ( 以 时 钟 周 期 计 ) 
GCT CC2 C3 GC CC5 cc6 CCT7 CC8 CC9 
寄存 器 x2 的 值 : 10 10 10 10 10/-20 -20 —20 -20 -20 


程序 执行 顺序 


( 以 指令 计 ) 
subx2;Xx1;x3 | 区 
引 H 才 





and x12, x2, x5 


or x13, x6, x2 


add x14, x2, x2 


sd x15, 100(x2) 





图 4-50 使 用 简化 的 数据 通路 表示 具有 相关 性 的 五 条 指令 序列 中 的 流水 线 相关 关系 。 所 有 的 
相关 操作 在 图 中 都 以 灰 线 显 示 ， 图 中 顶部 的 “CC1” 表 示 第 一 个 时 钟 周 期 。 第 一 条 
指令 向 x2 中 写 和 人 数据， 后 续 的 指令 都 是 从 x2 中 读 取 数据 。x2 寄存 器 在 第 五 个 时 
钟 周期 时 被 写 人 ， 因 此 在 第 五 个 时 钟 周期 前 正确 的 寄存 器 值 是 不 可 用 的 。( 当 这 样 
的 写 操作 发 生 时 ， 本 时 钟 周 期 内 读 寄存 器 的 值 返回 本 周期 内 前 半 个 周期 末 被 写 人 的 
值 -) 从 数据 通路 顶部 到 底部 的 灰色 线 表 示 相 关 关系 。 那 些 导致 时 间 后 退 的 相关 就 
是 流水 线 数据 冒险 


最 后 一 个 潜在 的 冒险 可 以 通过 寄存 器 堆 的 硬件 设计 来 解决 : 当 一 个 寄存 器 在 同一 个 时 钟 
周期 内 既 被 读 取 又 被 写 人 时 会 发 生 什么 ?我们 假定 写 操作 发 生 在 一 个 时 钟 周期 的 前 半 部 分 ， 
而 读 操作 发 生 在 后 半 部 分 。 所 以 读 操作 会 得 到 本 周期 内 被 写 人 的 值 。 这 种 假定 与 很 多 寄存 器 
堆 的 实现 是 一 致 的 。 在 这 种 情况 下 不 会 发 生 数 据 冒 险 。 

如 图 4-50 所 示 ， 在 第 五 个 时 钟 周期 之 前 ， 对 寄存 器 x2 的 读 操作 并 不 能 返回 sub 指令 
的 结果 。 因 此 ， 图 中 的 add 和 sd 指令 可 以 得 到 正确 结果 -20, 但 是 and 和 or 指令 却 会 得 
到 错误 的 结果 10。 在 这 种 类 型 的 图 中 ， 每 当 相 关 线 在 时 间 线 上 表示 为 后 退 时 (箭头 指向 左上 
方 )， 这 个 问题 就 会 变 得 很 明显 。 

正如 4.5 节 中 提 到 的 那样 ， 在 第 三 个 时 钟 周期 也 就 是 sub 指令 的 EX 指令 阶段 结束 时 就 
可 以 得 到 想 要 的 结果 。 那 么 在 and 和 or 指令 中 是 什么 时 候 才 真正 需要 这 个 数据 呢 ? 答案 是 
在 and 和 or 指令 的 EX 阶段 开始 的 时 候 ， 分 别 对 应 第 四 和 第 五 个 时 钟 周期 。 因 此 ， 只 要 可 
以 一 得 到 相应 的 数据 就 将 其 前 递 给 等 待 该 数据 的 单元 ， 而 不 是 等 待 其 可 以 从 寄存 器 堆 中 读 取 
出 来 ， 就 可 以 不 需要 停顿 地 执行 这 段 指令 了 。 

前 递 是 怎样 工作 的 ? 在 本 节 的 余下 部 分 ， 为 了 简化 内 容 ， 我 们 只 考虑 如 何 解决 将 EX 阶 
段 产生 的 操作 数 前 递 出 去 的 问题 ， 该 数据 可 能 是 ALU 或 是 有 效 地 址 的 计算 结果 。 这 意味 着 
当 一 个 指令 试图 在 EX 阶段 使 用 的 寄存 器 是 一 个 较 早 的 指令 在 WB 阶段 要 写 和 的 寄存 器 时 ， 
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我 们 需要 将 该 数据 作为 ALU 的 输入 。 

命名 流水 线 寄 存 器 字段 是 一 种 更 精确 的 表示 相关 关系 的 方法 。 例 如 ，ID/EX. RegisterRsl 
表示 一 个 寄存 器 的 编号 ， 它 的 值 在 流水 线 寄存 器 ID.EX 中 ,也 就 是 这 个 寄存 器 堆 中 第 一 个 读 
端口 的 值 。 该 名 称 的 第 一 部 分 ， 也 就 是 点 号 的 左边 ， 是 流水 线 寄存 右 的 名 称 ; 第 二 部 分 是 寄 
存 器 中 字段 的 名 称 。 使 用 这 种 表示 方法 ， 可 以 得 到 两 对 冒险 的 条 件 : 

la. EX/MEM.RegisterRd = ID/EX.RegisterRs1 

lb. EX/MEM.RegisterRd = ID/EX.RegisterRs2 

2a. MEM/WB.RegisterRd = ID/EX.RegisterRsl1 

2b. MEM/WB.RegisterRd = ID/EX. RegisterRs2 

在 本 节 开 头 的 代码 中 ， 指 令 序 列 中 的 第 一 个 冒险 发 生 在 寄存 器 x2 上 ， 位 于 sub 指令 
sub x2，Xx1l，X3 的 结果 和 and 指令 and x12，x2，x5 的 第 一 个 读 操作 数 之 间 。 这 个 
冒险 可 以 在 and 指令 位 于 EX 阶段 、sub 指令 位 于 MEM 阶段 时 被 检测 到 ， 因 此 这 种 冒险 属 
于 1a 类型. 

EX/MEM.RegisterRd = ID/EX.RegisterRsl1 = x2 





| 例题 | 相关 性 检测 a 
将 本 节 开 头 的 指令 序列 的 相关 性 进行 分 类 : 
Dl 0 // Register x2 set by sub 
dnd Kl2 XZ KE // lst operand(z2) set by Sub 
SF 栋 133， 人 区 // 2nd operand(x2) set by sub 
dd 尖 ] 半 。 文 尼 。 式 名 // lst(x2) & 2nd(x2) set by sub 


sg Xl lOO0(xXZ) // Index(x2) set by sub 


| 答案 | 正如 上 文中 所 提 到 的 ， 在 sub 指令 和 and 指令 之 间 存在 类 型 为 la 的 冒险 。 其 余 的 
冒险 类 型 分 别 是 : 
e sub 指令 和 or 指令 之 间 存 在 类 型 为 2b 的 冒险 : 
MEM/WB.RegisterRd = ID/EX.RegisterRs2 = x2 
e 在 sub 指令 和 add 指令 之 间 的 两 个 相关 性 都 不 是 冒险 ， 因 为 在 add 指令 的 ID 阶段 
寄存 器 堆 已 经 可 以 提供 x2 的 正确 值 了 。 
e 在 Sub 指令 和 sd 指令 之 间 不 存在 数据 冒险 ， 因 为 sd 指令 在 sub 指令 将 结果 写 回 至 
X2 之 后 才 读 取 x2 的 值 。 


因为 并 不 是 所 有 的 指令 都 会 写 回 寄存 器 ， 所 以 这 个 策略 是 不 正确 的 ， 它 有 时 会 在 不 应 
该 前 递 的 时 候 也 将 数据 前 递 出 去 。 一 种 简单 的 解决 方案 是 检查 RegWrite 信号 是 否 是 有 效 的 : 
检查 流水 线 寄 存 器 在 EX 和 MEM 阶段 的 WB 控制 字段 以 确定 RegWrite 信号 是 否 有 效 。 回 
忆 一 下 ，RISC-V 要 求 每 次 使 用 x0 寄存 器 作为 操作 数 时 必须 认为 该 操作 值 为 0。 如 果 流 水 线 
中 的 指令 以 x0 作为 目标 寄存 器 (例如 addi x0，xl，2 这 条 指令 )， 我 们 希望 避免 前 递 非 零 
的 结果 值 。 不 前 递 以 x0 为 目标 寄存 器 的 结果 可 以 使 得 汇编 程序 员 和 编译 器 不 需要 考虑 将 x0 
作为 目标 寄存 器 的 情况 。 只 要 我 们 将 EX/MEM.RegisterRd 关 0 添加 到 第 一 类 冒险 条 件 ， 并 
将 MEM/WB.RegisterRd 关 0 添加 到 第 二 类 冒险 条 件 中 ， 就 可 以 使 得 上 述 条 件 正 常 工作 。 

现在 我 们 可 以 检测 冒险 了 。 一 半 的 问题 已 经 解决 了 ， 剩 下 一 半 的 问题 是 前 递 正 确 的 
数据 。 
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图 4-51 的 代码 序列 与 图 4-50 中 的 相同 ， 显 示 了 流水 线 寄存 器 和 ALU 输入 之 间 的 相关 
性 。 不 同 的 是 ， 图 4-51 中 的 相关 性 开始 于 流水 线 寄存 器 ， 而 不 是 等 待 WB 阶段 写 人 寄存 
器 堆 。 因 此 ， 只 要 流水 线 寄存 器 保存 了 将 要 被 前 递 的 数据 ， 后 续 的 指令 就 可 以 得 到 所 需 的 
数据 。 

时 间 ( 以 时 钟 周期 计 ) 
CC 1 CC 2 CC3 CC 4 CC 5 CC6 CC7 CC8 CC9 
寄存 器 x2 的 值 : 10 10 10 10 10/-20 —20 —20 —20 —20 








程序 执行 顺序 


( 以 指令 计 ) 
sub x2, x1, x3 引 F 


and x12, x2, x5 
or x13, x6, x2 
add x14, x2, x2 


sd x15, 100(x2) 





图 4-51 各 流水 线 寄 存 器 之 间 的 相关 关系 会 随 着 时 间 向 前 移动 ， 因 此 可 以 通过 前 递 在 流水 线 
寄存 器 中 找到 的 结果 ， 以 提供 and 指令 或 or 指令 所 需 的 ALU 的 输入 。 流 水 线 寄 
存 器 中 的 值 表示 所 需 的 值 在 被 写 入 寄存 器 堆 之 前 就 是 可 用 的 。 我 们 假设 寄存 器 堆 可 
以 前 递 在 同一 时 钟 周期 内 要 被 读 写 的 数据 ,这样 add 指令 就 不 需要 停顿 了 ， 不 过 
这 些 值 来 自流 水 线 寄存 器 而 不 是 寄存 器 堆 。 寄 存 器 堆 前 递 ， 即 读 操 作 获 得 的 值 是 本 
时 钟 周期 内 写 操作 的 结果 ， 这 就 是 为 什么 第 五 个 时 钟 周期 中 显示 寄存 器 x2 在 前 半 
个 周期 内 的 值 为 10 而 在 周期 结束 时 的 值 为 -20 


如 果 我 们 可 以 从 任何 流水 线 寄存 器 而 不 仅仅 是 ID/EX 中 得 到 ALU 的 输入 ， 那 就 可 以 前 
递 正 确 的 数据 。 通 过 在 ALU 的 输入 上 添加 多 选 器 再 辅 以 适当 的 控制 ， 就 可 以 在 存在 数据 冒 
险 的 情况 下 全 速 运行 流水 线 。 

现在 ， 假 设 需要 前 递 的 指令 只 有 这 四 种 形式 : add、sub、and 和 or 指令 。 图 4-52 是 
ALU 和 流水 线 寄 存 器 在 添加 前 递 之 前 和 之 后 的 “特写 ” 。 图 4-53 是 ALU 多 选 器 的 控制 线 的 
值 ， 它 选择 寄存 器 堆 的 值 或 是 被 前 递 的 值 中 的 一 个 。 

这 个 前 递 控制 将 发 生 在 EX 阶段 ， 因 为 ALU 前 递 多 选 器 在 EX 阶段 。 因 此 ， 我 们 必须 
在 ID 阶段 通过 ID/EX 流水 线 寄存 器 将 操作 数 寄存 器 编号 传递 出 去 ， 以 决定 是 否 需 要 前 弟 值 。 
在 加 入 前 递 机 制 之 前 ，ID/EX 流水 线 寄存 器 无 须 保存 rsl 字段 和 rs2 字段 ， 但 是 因为 前 递 机 
制 的 需要 ， 现 在 要 将 保存 rsl 和 rs2 所 需 的 空间 添加 到 ID/EX 流水 线 寄存 器 中 。 


图 





ID/EX EX/MEM MEM/WB 





a ) 添加 前 递 前 


ID/EX EX/MEM MEM/WB 








Registers 







EX/MEM.RegisterRd 


MEM/WB.RegisterRd 


4-52 添加 前 递 前 后 的 ALU 和 流水 线 寄存 器 。 上 图 未 添加 前 递 ， 下 图 将 多 选 器 扩展 为 前 
递 路 径 ， 并 在 图 中 显示 前 递 单元 。 新 的 硬件 在 图 中 以 灰色 显示 。 本 图 只 是 一 张 示意 
图 ， 没 有 标注 诸如 符号 扩展 硬件 这 样 的 完整 数据 通路 中 的 细节 








~、 
| Forwarding 
unit 







b ) 添加 前 递 后 


多 选 器 控制 解释 


























| ForwardA=00 | ID/EX ALU 的 第 一 个 操作 数 来 自 寄存 器 堆 
| _ForwardA=10 | EX/MEM ”| ALu 的 第 一 个 操作 数 来 自 上 一 个 ALU 计 算 结果 的 前 弟 
ForwardA= 01 | MEM/WB |ALU 的 第 一 个 操作 数 来 自 数据 存储 器 或 者 更 早 的 ALU 计 算 结 果 的 前 弟 
ForwardB = 00 ID/EX ALU 的 第 二 个 操作 数 来 自 寄存 器 堆 
ForwardB = 10 EX/MEM | ALU 的 第 二 个 操作 数 来 自 上 一 个 ALU 计 算 结 果 的 前 弟 
ForwardB= 01 | MEM/WB | ALU 的 第 二 个 操作 数 来 自 数据 存储 器 或 者 更 早 的 ALU 计 算 结果 的 前 弟 








图 4-53 图 4-52 中 多 选 器 的 控制 值 。ALU 的 另 一 个 输入 符号 扩展 的 立即 数 会 在 本 节 最 后 的 


拓展 阅读 中 说 明 
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现在 给 出 检测 冒险 的 条 件 以 及 解决 相应 冒险 的 控制 信号 : 
1. EX 冒险 


if (EX/MEM.RegWrite 
and (EX/MEM.RegisterRd < 0) 
and (EX/MEM.RegisterRd = ID/EX.RegisterRs1)) ForwardA = 10 


if (EX/MEM.RegWrite 

and (EX/MEM.RegisterRd =# 0) 

and (EX/MEM.RegisterRd = ID/EX.RegisterRs2)) ForwardB = 10 

这 种 情况 是 将 前 一 条 指令 的 结果 前 递 到 任何 一 个 ALU 的 输入 中 。 如 果 前 一 条 指令 想 要 
写 寄存 器 堆 ， 并 且 将 要 写 的 寄存 器 编号 与 ALU 输入 口 A 或 B 要 读 取 的 寄存 器 编号 一 致 (前 
提 是 该 寄存 器 编号 不 为 0 )， 那 么 就 控制 多 选 器 直接 从 EX/MEM 流水 线 寄存 器 中 取 值 。 

2. MEM 冒险 


if (MEM/WB.RegWrite 

and (MEM/WB.RegisterRd # 0) 

and (MEM/WB.RegisterRd = ID/EX.RegisterRs1)) ForwardA = 01 

if (MEM/WB.RegWrite 

and (MEM/WB.RegisterRd # 0) 

and (MEM/WB.RegisterRd = ID/EX.RegisterRs2)) ForwardB = .01 

正如 上 文 所 述 ， 在 WB 阶段 不 存在 冒险 ， 因 为 我 们 假定 在 ID 阶段 的 指令 读 取 的 寄存 器 
与 WB 阶段 要 写 和 人 的 寄存 器 相同 时 ， 寄 存 器 堆 能 够 提供 正确 的 结果 。 也 就 是 说 ， 寄 存 器 堆 提 
供 了 另外 一 种 形式 的 前 递 ， 只 不 过 这 种 前 递 发 生 在 寄存 器 堆 内 部 。 

一 种 复杂 的 潜在 数据 冒险 是 在 WB 阶段 指令 的 结果 、MEM 阶段 指令 的 结果 和 ALU 阶 
段 指 令 的 源 操 作 数 之 间 发 生 的 。 例 如 ， 在 一 个 寄存 器 中 对 一 组 数据 做 求 和 操作 时 ， 一 系列 的 
指令 将 会 读 和 写 一 个 相同 的 寄存 器 : 

1 |: .4 


ddd XL XL 
add xl, x1 Xd 


在 这 种 情况 下 ,结果 应 该 是 来 自 MEM 阶段 前 弟 的 数据 ， 因 为 MEM 阶段 中 的 结果 就 是 
最 近 的 结果 。 因 此 ，MEM 冒险 的 控制 应 该 是 (在 下 文中 以 灰色 标注 ): 
if (MEM/WB.RegWrite 
and dp ey * 0) 
nd 1 Wr ¢ /MEM ,RegisterRd = ( 
and terRd ID/EX.RegisterRsl1) 
and (MEM/WB. ye = ID/EX. ee re ForwardA = 01 


if (MEM/WB.RegWrite 

and J RegisterRd 关 0) 

3 ; en x De $y gist ee = TD en Se i Ei 

and (MEM/WB. RegisterRd = ID/EX.RegisterRs2)) Forvardl = 01 

图 4-54 显示 了 为 了 支持 前 递 EX 阶段 的 结果 ， 这 个 操作 所 需要 添加 的 硬件 。 注 意 EX/ 
MEM.RegisterRd 字段 是 ALU 指令 或 者 加 载 指 令 的 目标 寄存 器 。 

如 果 你 想 查 看 更 多 使 用 单 时 钟 周期 流水 线 绘制 方式 的 示例 说 明 ，4.13 节 中 给 出 了 两 份 存 


在 需要 前 递 的 冒险 的 RISC-V 代码 。 








| MEM/WB 
IFIID EX| | WB 站 











i 
刀 
a 
-3 
® 
o 
) -G 


Instruction 


memory 





pba IFND. RegisterRs2 
| 7! IF/ID.RegisterRd 








EX/MEM.RegisterRd 


| 
| 
【| | 
Forwarding ,| | MEM/WB.RegisterRd 
il unit |) | 


图 4-54 通过 前 递 解决 冒险 的 数据 通路 。 与 图 4-49 中 的 数据 通路 相 比 ， 图 4-54 在 ALU 的 
输入 上 添加 了 多 选 器 。 本 图 只 是 一 张 示 意图 ， 没 有 标注 诸如 分 支 硬件 和 符号 扩展 硬 
件 这 样 的 完整 数据 通路 中 的 细节 


全 鲍 病 通 前 递 还 有 助 于 解决 当 存 储 指令 与 其 他 指令 相关 时 造成 的 冒险 。 因 为 sd 指 
在 MEM 阶段 只 使 用 一 个 数据 值 ， 因 此 设置 前 递 是 很 简单 的 。 然 而 ， 需 要 考虑 加 载 指令 网 中 
在 存储 指令 之 后 的 情况 ， 这 在 RISC-V 架构 中 执行 内 存 之 间 的 拷贝 操作 时 非常 有 用 。 因 为 复 
制 是 频繁 的 ， 所 以 我 们 需要 添加 更 多 的 前 递 硬 件 使 其 运行 得 更 快 。 如 果 重 绘图 4-51, 将 Sub 
指令 和 and 指令 蔡 换 为 1d 和 sd 指令 ,我 们 会 发 现 避 免 一 次 停顿 是 可 能 的 ， 因 为 sd 指令 
在 MEM 阶段 所 使 用 的 数据 会 及 时 保存 在 1d 指令 的 MEM/WB 寄存 器 中 。 为 了 实现 这 个 操 
作 ， 需 要 在 存储 器 访问 阶段 加 入 前 递 。 我 们 将 这 个 修改 作为 练习 留 给 读者 。 

此 外 ，1d 和 sd 指令 所 需 的 一 种 作为 ALU 输入 的 符号 扩展 立即 数 ， 在 图 4-54 中 的 数 
据 通路 里 没有 画 出 。 因 为 寄存 器 和 立即 数 之 间 的 判定 是 由 中 央 控 制 判断 的 ， 而 前 递 单元 选择 
流水 线 寄存 器 中 的 一 个 作为 ALU 的 一 个 寄存 器 输入 ， 最 简单 的 解决 方案 就 是 加 入 一 个 二 选 
一 的 多 选 器 ， 在 ForwardB 多 选 器 输出 和 符号 扩展 立即 数 之 间 做 选择 。 图 4-55 人 
添加 的 部 件 。 


数据 冒险 与 停顿 
正如 4.5 节 中 提 到 的 那样 ， 当 一 条 指令 试图 在 加 载 指令 写 人 一 个 | 如 果 你 在 开始 的 时 候 没有 
寄存 器 之 后 读 取 这 个 寄存 器 时 ， 前 递 不 能 解决 此 处 的 冒险 。 图 4-56 | 成 功 ， 那 你 可 以 重新 定义 
说 明了 这 个 问题 。 在 第 4 个 时 钟 周期 时 ， 数 据 还 正在 存储 器 中 被 读 | >>。 
取 ， 但 此 时 ALU 已 经 在 为 下 一 条 指令 执行 操作 了 。 当 加 载 指令 后 跟 
着 一 条 需要 读 取 加 载 指令 结果 的 指令 时 ， 流 水 线 必须 被 阻塞 以 消除 这 种 指令 组 合 带 来 的 冒险 。 
因此 ， 除 了 一 个 前 递 单元 外 ， 还 需要 一 个 冒险 检测 单元 。 该 单元 在 ID 流水 线 阶段 操作 ， 
从 而 可 以 在 加 载 指令 和 相关 加 载 指令 结果 的 指令 之 间 加 入 一 个 流水 线 阻塞 。 这 个 单元 检测 加 
载 指令 ， 冒 险 控制 单元 的 控制 迎 辑 满足 如 下 条 件 : 














ID/EX EX/MEM MEM/WB 





Forwarding 
\ unit 





图 4-55 图 4-52 中 数据 通路 的 “特写 "， 展 示 了 一 个 二 选 一 多 选 器 ， 它 被 加 入 图 中 以 选择 符 
号 扩展 立即 数 作 为 ALU 的 输入 





时 间 ( 以 时 钟 周期 计 ) 

CC 1 CC 2 CC 3 CC 4 CC 5 CC6 CC7 CC8 CC9 

程序 执行 顺序 
( 以 指令 计 ) 







IR 


ld x2, 20(x1) 
and x4,x2, x5 
Or x8, x2, x6 
add x9,x4,x2 
sub x1, x6, x7 
图 4-56 一 个 流水 化 的 指令 序列 。 因 为 1d 指令 和 and 指令 之 间 的 相关 性 在 时 间 上 是 北向 


的 ， 所 以 这 种 冒险 不 能 使 用 前 递 来 解决 。 因 此 ， 这 种 指令 组 合 会 导致 冒险 检测 单元 
产生 一 个 停顿 
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if (ID/EX.MemRead and 
((ID/EX.RegisterRd = IF/ID.RegisterRsl) or 
(ID/EX.RegisterRd = IF/ID.RegisterRs2))) 
stall the pipeline 

回想 一 下 ,我们 在 加 载 指令 和 R 型 指令 中 使 用 RegisterRd 也 就 是 指令 的 7 至 11 位 
( 11:7 ) 表示 指定 的 寄存 器 。 第 一 行 测 试 是 为 了 查看 指令 是 否 是 加 载 指令 : 只 有 加 载 指令 需要 
读 取 数据 存储 器 。 接 下 来 的 两 行 检 测 在 EX 阶段 的 加 载 指令 的 目标 寄存 器 是 否 与 ID 阶段 的 
指令 中 的 某 一 个 源 寄存 器 相 匹 配 。 如 果 条 件 成 立 ， 指 令 会 停顿 一 个 时 钟 周期 。 在 一 个 时 钟 周 
期 后 ， 前 递 逻 辑 就 可 以 处 理 这 个 相关 并 继续 执行 程序 了 。( 如 果 没 有 前 递 ， 那 么 图 4-56 中 的 
指令 还 需要 再 停顿 一 个 时 钟 周期 。) 

如 果 处 于 ID 阶段 的 指令 被 停顿 了 ， 那 么 在 正 阶段 中 的 指令 也 一 定 要 被 停顿 ， 否 则 已 经 
取 到 的 指令 就 会 丢失 。 只 需要 简单 地 禁止 PC 寄存 器 和 IF/ID 流水 线 寄 存 占 的 改变 就 可 以 阻 
止 这 两 条 指令 的 执行 。 如 果 这 些 寄存 器 被 保护 ,在 IF 阶段 的 指令 就 会 继续 使 用 相同 的 PC 值 
取 指 令 ， 同 时 在 ID 阶段 的 寄存 器 就 会 继续 使 用 IF/ID 流水 线 寄 存 器 
中 相同 的 字段 读 寄 存 器 。 再 回 到 我 们 的 洗衣 例子 中 ， 这 就 像 是 你 重 | 空 指令 ; 一 种 不 执行 任何 
新 开启 洗衣 机 洗 相 同 的 衣服 并 且 让 烘 干 机 继续 空转 一 样 。 当 然 ， 就 | 操作 、 不 改变 任何 状态 的 
像 烘 干 机 那样 ，EX 阶段 开始 的 流水 线 后 半 部 分 必须 执行 没有 任何 效 | 澡 信 
果 的 指令 ， 也 就 是 空 指令 。 

如 何在 流水 线 中 插入 空 指令 (就 像 气泡 那样 ) 呢 ?7 从 图 4-47 中 可 知 ， 解 除 EX、MEM a 
WB 阶段 的 七 个 控制 信号 (将 它们 设置 为 0) 就 可 以 产生 一 个 “没有 任何 操作 ”的 指令 ， 也 
就 是 空 指令 。 通 过 识别 ID 阶段 的 冒险 ， 我 们 可 以 通过 将 ID/EX 流水 线 寄存 器 中 EX、MEM 
和 WB 的 控制 字段 设置 为 0 来 向 流水 线 中 插入 一 个 气泡 。 这 些 不 会 产生 负面 作用 的 控制 值 在 
每 个 时 钟 周 期 向 前 传递 并 产生 适当 的 效果 : 在 控制 值 均 为 0 的 情况 下 ， 不 会 有 寄存 器 或 者 存 
储 器 被 写 和 人 数据。 

图 4-57 显示 了 硬件 中 的 具体 实现 细节 : and 指令 所 在 的 流水 线 执行 槽 变 成 了 nop 指令 
并 且 所 有 在 and 指令 之 后 的 指令 都 被 延 后 了 一 个 时 钟 周期 。 就 像 水 管 中 出 现 了 一 个 气泡 那 
样 ， 这 个 停顿 气泡 延 后 了 它 之 后 的 所 有 指令 的 执行 ， 并 且 随 着 每 个 时 钟 周期 沿 着 流水 线 继续 
前 进 ， 直 到 其 退出 流水 线 。 在 本 例 中 ， 这 个 冒险 使 得 and 指令 和 or 指令 在 第 4 个 时 钟 周期 
内 重复 了 它们 在 第 3 个 时 钟 周期 内 做 过 的 事情 : and 指令 读 寄 存 器 和 解码 ，or 指令 从 指令 
存储 器 中 重新 取 了 一 遍 指令 。 这 种 重复 看 起 来 就 像 是 停顿 一 样 ， 它 的 影响 是 拉 伸 了 and 指 
令 和 or 指令 ， 并 且 延 后 了 取 第 2 个 and 指令 的 时 间 。 

图 4-58 中 高 亮 显 示 了 流水 线 中 冒险 检测 单元 和 前 递 单元 之 间 的 连接 。 和 原来 一 样 ， 前 
递 单元 控制 ALU 多 选 器 ， 用 相应 的 流水 线 寄存 器 中 的 值 蔡 换 通用 寄存 器 中 的 值 。 冒 险 检测 
单元 控制 PC 和 1IF/ID 流水 线 寄存 器 的 写 人 ， 以 及 在 实际 控制 值 和 全 0 之 间 选 择 的 多 选 右 。 
如 果 加 载 - 使 用 冒险 被 检测 为 真 ， 则 冒险 检测 单元 会 停顿 并 清除 所 有 控制 字段 。 如 果 想 要 了 
解 更 多 细节 ，4.13 节 中 给 出 了 一 个 RISC-V 代码 示例 ， 用 于 说 明 在 单 时 钟 周期 流水 线 图 中 造 
成 停顿 的 冒险 。 

| 嘲 圳 尽管 编译 器 通常 依赖 于 硬件 来 解决 冒险 并 保证 指令 正确 执行 ， 但 编译 器 仍然 需要 
理解 流水 线 以 获得 最 优 性 能 。 和 否则 ， 未 预料 到 的 停顿 就 会 降低 编译 后 代码 的 性 能 。 

镜 独 羡 通 | 上 文中 提 到 将 控制 线 置 为 0 以 避免 写 入 寄存 器 或 存储 器 : 事实 上 ， 只 要 将 
RegWrite 和 MemWrite 信号 设置 为 0 即 可 ， 不 需要 考虑 其 他 的 控制 信号 的 值 。 


时 间 ( 以 时 钟 周期 计 ) 
CC 1 CC 2 CC 3 CC 4 CC 5 CC6 CC7 CC8 CC9 CC 10 





程序 执行 顺序 
( 以 指令 计 ) 


ld x2, 20(x1) 


and x4, x2, x5 


Or x8, x2, x6 


add x9, x4, x2 





图 4-57 在 流水 线 中 插入 停顿 的 方法 。 通 过 将 and 指令 替换 成 nop， 在 第 4 个 时 钟 周期 中 插入 了 一 
停顿 。 需 要 注意 的 是 and 指令 在 第 2 和 第 3 个 时 钟 周期 内 被 译 码 和 解码 ， 但 它 的 EX 阶段 被 
延 后 到 第 5 个 时 钟 周期 中 (如 果 没 有 停顿 ，EX 阶段 应 该 发 生 在 第 4 个 时 钟 周期 中 。) 相应 的 ， 
or 指令 在 第 3 个 时 钟 周 期 被 译 码 ， 但 它 的 ID 阶段 被 延 后 到 第 5 个 时 钟 周期 中 (如果 没有 停 
顿 ，ID 阶段 应 该 发 生 在 第 4 个 时 钟 周期 中 。) 在 插入 气泡 后 ， 所 有 的 相关 性 沿 着 时 间 轴 继续 向 
前 ， 但 是 不 会 再 发 生 冒 险 了 
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图 4-58 流水线 控制 图 概览 ， 图 中 包括 两 个 前 递 多 选 器 、 一 个 冒险 检测 单元 和 一 个 前 递 单元 。 尽 管 简 
化 了 ID 和 EX 阶段 (图 中 省 略 了 符号 扩展 立即 数 和 分 支 逻 辑 )， 但 是 本 图 还 是 说 明了 前 递 所 需 
的 最 基本 的 硬件 
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4.8 控制 冒险 
迄今 为 止 ， 我 们 只 将 对 冒险 的 关注 局 限 在 算术 操作 和 数据 传输 | if -十 个 人 对 日 吉 进行 
中 。 然 而 ， 正 如 4.5 节 所 示 ， 流 水 线 冒 险 也 包括 条 件 分 支 。 图 4-59 | 了 不 病 不 痒 的 批判 ， 才 会 
中 夯 出 了 一 个 指令 序列 ， 并 标明 在 这 个 流水 线 中 分 支 是 何 时 发 生 的 。 | 出 现 一 个 人 真正 地 动 接 基 
每 个 时 钟 周期 都 必须 进行 取 值 操作 以 维持 流水 线 ， 不 过 在 我 们 的 设 | 县。 相 二 ，， 
计 中 ， 要 等 到 MEM 流水 线 阶段 才 可 以 决定 分 支 是 否 发 生 。 正 如 4.5 | Wiiiem, mw 
节 中 所 述 ， 这 种 为 了 决定 正确 执行 指令 所 产生 的 延迟 被 称 为 控制 
险 或 分 支 冒 险 ， 这 与 我 们 之 前 讨论 的 数据 冒险 相对 应 。 
时 间 ( 以 时 钟 周期 计 ) 
程序 执行 顺序 
( 以 指令 计 ) 


40 beq x1, x0, 16 










44 and x12, x2, x5 


48 or x13, x6, x2 


52 add x14, x2, x2 


72 ld x4, 100(x7) 


图 4-59 分支 指令 对 流水 线 的 影响 。 指 令 左边 的 数字 (40、44 等 ) 代表 指令 的 地 址 。 因 为 分 
支 指令 在 MEM 阶段 决定 是 否 跳 转 (也 就 是 图 中 beq 指令 在 第 4 个 时 钟 周 期 内 的 操 
作 )， 分 支 指令 后 续 的 三 条 指令 都 将 被 取 值 并 且 开 始 执行 。 如 果 不 进 行 干预 ， 这 三 条 
后 续 指令 会 在 beq 指令 跳 转 到 地 址 72 上 的 1d 指令 之 前 就 开始 执行 (图 4-29 使 用 了 
额外 的 硬件 以 减 小 控制 冒险 至 一 个 时 钟 周期 ， 而 本 图 使 用 的 是 没有 优化 的 数据 通路 。) 


本 节 关 于 控制 冒险 的 篇 幅 会 短 于 之 前 叙述 数据 冒险 的 小 节 。 这 是 因为 控制 冒险 相对 更 好 
理解 ， 发 生 的 频率 也 比 数据 冒险 更 低 ， 而 且 相对 于 数据 冒险 ， 现 在 还 没有 解决 控制 冒险 的 有 
效 手段 。 因 此 ， 我 们 采用 了 更 简单 的 描述 方案 。 本 节 介 绍 了 两 种 解决 控制 冒险 的 方案 以 及 一 
种 提升 解决 方案 性 能 的 优化 方法 。 


4.8.1 假设 分 支 不 发 生 


正如 4.5 节 中 所 述 ， 阻 塞 流 水 线 直 到 分 支 完成 的 策略 非常 耗 时 。 一 种 提升 分 支 阻塞 效率 
的 方法 是 茵 测 条 件 分 支 不 发 生 并 持续 执行 顺序 指令 流 。 一 旦 条 件 分 支 发 生 ， 已 经 被 读 取 和 
译 码 的 指令 就 将 被 丢弃 ， 流 水 线 继续 从 分 支 目标 处 开始 执行 。 如 果 条 件 分 支 不 发 生 的 概率 是 
50%， 同 时 丢弃 指令 的 代价 又 很 小 ,那么 这 种 优化 方式 可 以 减少 一 半 由 控制 冒险 带 来 的 代价 。 
想 要 丢弃 指令 ， 只 需要 将 初始 控制 值 变 为 0 即 可 ， 这 与 指令 停顿 以 解决 加 载 - 使 用 的 数 
据 冒 险 类 似 。 不 同 的 是 ,丢弃 指令 的 同时 也 需要 改变 当 分 支 指令 到 达 MEM 阶段 时 正 、ID 和 
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EX 阶段 的 三 条 指令 ; 而 在 加 载 - 使 用 的 数据 停顿 中 ， 只 需要 将 ID | 清除 : 丢弃 流水 线 中 的 指 
阶段 的 控制 信号 变 为 0 并 且 将 该 阶段 的 指令 从 流水 线 中 过 滤 出 去 即 | 全 ,通常 是 因为 发 生 了 一 
可 。 丢 弃 指令 ， 意 味 着 我 们 必须 能 够 将 流水 线 中 下、ID 和 EX 阶段 | 个 二 林村 天 的 计件。 

中 的 指令 都 清除 。 


4.8.2 缩短 分 支 延 迟 


一 种 提升 条 件 分 支 性 能 的 方式 是 减少 发 生 分 支 时 所 需 的 代价 。 到 目前 为 止 ， 我 们 假定 分 
支 所 需 的 下 一 PC 值 在 MEM 阶段 才能 被 获取 ， 但 如 果 我 们 将 流水 线 中 的 条 件 分 支 指令 提早 
移动 执行 ， 就 可 以 刷新 更 少 的 指令 。 要 将 分 支 决 定向 前 移动 ， 需 要 两 个 操作 提早 发 生 : 计算 
分 支 目标 地 址 和 判断 分 支 条 件 。 其 中 ,将 分 支 地 址 提前 进行 计算 是 相对 简单 的 。 在 IF/ID 流 
水 线 寄 存 器 中 已 经 得 到 了 PC 值 和 立即 数字 段 ， 所 以 只 需 将 分 支 地 址 从 EX 阶段 移动 到 ID 阶 
段 即 可 。 当 然 ， 分 支 地 址 的 目标 计算 将 会 在 所 有 指令 中 都 执行 ， 但 只 有 在 需要 时 才 会 被 使 用 。 

困难 的 部 分 是 分 支 决 定 本 身 。 对 于 相等 时 跳 转 指令 ， 需 要 在 ID 阶段 比较 两 个 寄存 器 中 
的 值 是 否 相 等 。 相 等 的 判断 方法 可 以 是 先 将 相应 位 进行 异 或 操作 ， 再 对 结果 按 位 进行 或 操 
作 。 将 分 支 检测 移动 到 ID 阶段 还 需要 额外 的 前 递 和 冒险 检测 硬件 ， 因 为 分 支 可 能 依赖 还 在 
流水 线 中 的 结果 ， 在 优化 后 依然 要 保证 运行 正确 。 例 如 ， 为 了 实现 相等 时 跳 转 指令 (或 者 不 
等 时 跳 转 指令 )， 需 要 在 ID 阶段 将 结果 前 递 给 相等 测试 逻辑 。 这 里 存在 两 个 复杂 的 因素 : 

1. 在 ID 阶段 需要 将 指令 译 码 ， 决 定 是 否 需要 将 指令 旁 路 至 相等 检测 单元 ， 并 且 完 成 相 
等 测试 以 防 指令 是 一 条 分 支 指令 ， 此 时 可 以 将 PC 设置 为 分 支 目标 地 址 。 对 分 支 指令 的 操作 
数 进行 前 递 的 操作 原先 是 由 ALU 前 递 逻辑 处 理 的 ,但 是 在 ID 阶段 引入 相等 检测 单元 后 就 需 
要 添加 新 的 前 递 逻 辑 。 需 要 注意 的 是 ， 旁 路 获得 的 分 支 指 令 的 源 操作 数 既 可 以 从 EX/MEM 
流水 线 寄存 器 中 获得 ， 也 可 以 从 MEM/WB 流水 线 寄存 器 中 获得 。 

2. 在 ID 阶段 分 支 比 较 所 需 的 值 可 能 在 之 后 才 会 产生 ， 因 此 可 能 会 产生 数据 冒险 ， 所 以 
指令 停顿 也 是 必需 的 。 例 如 ， 如 果 一 条 ALU 指令 恰好 在 分 支 指令 之 前 ， 并 且 这 条 ALU 指令 
产生 条 件 分 支 检测 时 所 需 的 操作 数 ， 那 么 一 次 指令 停顿 就 是 必需 的 ， 因 为 ALU 指令 的 EX 
阶段 将 发 生 在 分 支 指令 的 ID 阶段 之 后 。 又 例如 ， 如 果 一 条 加 载 指令 恰好 在 条 件 分 支 指令 之 
后 ， 并 且 条 件 分 支 指令 依赖 加 载 指令 的 结果 ， 那 么 两 个 时 钟 周期 的 停顿 就 是 必需 的 ， 因 为 加 
载 指 令 的 结果 要 在 MEM 阶段 的 最 后 才能 产生 ,但 是 在 分 支 指令 的 ID 阶段 的 开始 就 需要 了 。 

尽管 这 很 困难 ， 但 是 将 条 件 分 支 指令 的 执行 移动 到 ID 阶段 的 确 是 一 个 有 效 的 优化 ， 因 
为 这 将 分 支 发 生 时 的 代价 减轻 至 只 有 一 条 指令 ， 也 就 是 分 支 发 生 时 正在 取 的 那 条 指令 ， 下 面 
的 例题 展示 了 实现 前 递 路 径 和 检测 冒险 的 更 多 实现 细节 。 

为 了 清除 正 阶段 的 指令 ， 我 们 添加 了 一 条 称 为 IF.Flush 的 控制 线 ， 它 将 IF/IF 流水 线 寄 
存 器 中 的 指令 字段 设置 为 0。 将 寄存 器 清空 的 结果 是 将 已 经 取 到 的 指令 转换 成 一 条 nop 指 
令 ， 该 指令 不 进行 任何 操作 ， 也 不 改变 任何 状态 。 


| 例题 | 流水线 分 支 和 
请 描述 当 这 个 指令 序列 中 发 生 分 支 跳 转 时 会 发 生 什么 ， 这 里 假定 流水 线 对 分 支 不 发 生 进 
行 了 优化 ， 并 且 将 分 支 执行 移动 到 了 ID 阶段 : 
36 sub Xx10，x4，Xx8 
40 bed XL xX3, 16 /i PC-relative, braneh to.40+16x2=72 


:5 0 WA 
48 or X13, WA WE 
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5， 放风 和， 久生 ，2 
S86 Sub X15 X06. 消 


72 1d Xx4, 50(x7) 
| 答案 | 图 4-60 展示 了 条 件 分 支 发 生 时 的 情况 ， 不 同 于 图 4-59， 这 里 在 分 支 发 生 时 只 有 一 个 
流水 线 气泡 。 
and x12, x2, x5 ! beq x1, x3, 16 | Sub x10, x4, x8 ! before<1> ， before<2> 


IF,Flush 





/ Hazard 、\ 
| detection 






































Clock 3 





pi dx4, SO(x7) Bubble (nop) | beqx1,x3,16  ， subx10,..，， before<1> 
l iush 4 
! | 
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Clock 4 


图 4-60 在 第 3 个 时 钟 周期 的 ID 阶段 决定 分 支 执行 必须 被 执行 ， 因 此 选择 72 作为 下 一 PC 
跳 转 地 址 ， 并 且 将 下 个 时 钟 周 期 获取 到 的 指令 置 0。 第 4 个 时 钟 周期 显示 了 地 址 72 
中 的 指令 被 获取 ， 并 且 因为 分 支 发 生 而 在 流水 线 中 产生 了 一 个 气泡 或 者 nop 指令 
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4.8.3 ”动态 分 支 预 测 


假定 条 件 分 支 不 发 生 是 一 种 简单 的 分 支 预测 形式 。 在 这 种 形式 下 ， 我 们 预测 分 支 不 发 
生 ， 并 在 预测 错误 时 清空 流水 线 。 对 于 简单 的 五 级 流水 线 来 说 ， 这 种 方法 再 结合 基于 编译 的 
预测 ， 就 基本 足够 了 。 而 对 于 更 深 的 流水 线 ， 从 时 钟 周期 的 角度 来 说 ， 分 支 预 测 错误 的 代价 
会 增 大 。 与 之 相似 ， 对 于 多 发 射 的 情况 ， 从 指令 丢失 的 角度 来 说 ， 分 支 预测 错误 的 代价 也 会 
增 大 。 两 者 组 合 起 来 意味 着 在 一 个 激进 的 流水 线 中 ， 简 单 的 静态 预测 机 制 会 在 性 能 上 造成 非 
常 多 的 浪费 。 正 如 在 4.5 节 中 所 述 ， 使 用 更 多 的 硬件 可 能 可 以 在 程序 执行 的 过 程 中 尝试 进行 
分 支 咯 测 。 和 

一 种 方法 是 检查 指令 中 的 地 址 ， 查 看 上 一 次 该 指令 执行 时 条 件 | 写真 人 庆生 全 放生 人 
分 支 是 否 发 生 了 跳 转 ， 如 果 答 案 是 肯定 的 ， 则 从 上 一 次 执行 的 地 址 | 冯 项 
中 取出 指令 。 这 种 技术 称 为 动态 分 支 预测 。 

这 种 方法 的 一 种 实现 方案 是 采用 分 支 预测 缓存 或 分 支 历史 表 。 | 分 支 预测 缓存 ， 也 称 分 支 
分 支 预 测 缓存 是 一 块 按照 分 支 指令 的 低位 地 址 定位 的 小 容量 存储 器 。 | 万 去， 一 次 要 分 支 折 
这 块 存储 器 包含 了 一 个 比特 ， 用 于 表明 一 个 分 支 最 近 是 否 发 生 了 | 全 的 名人 起 全 全 的 人 
跳 转 。 个 比特 以 表明 一 个 分 支 最 

该 预测 使 用 一 种 最 简单 的 缓存 ， 事实 上 ， 我 们 并 不 知道 该 预测 | 过 是 否 改 生 了 中转 
是 否 是 正确 的 一 一 这 个 位 置 可 能 已 经 被 另 一 条 拥有 相同 低位 地 址 的 
条 件 分 支 指令 的 跳 转 状态 所 替换 。 不 过 ， 这 并 不 会 影响 这 种 预测 方法 的 准确 性 。 预 测 只 是 一 
种 我 们 希望 是 正确 的 假设 ， 所 以 我 们 会 在 预测 发 生 的 方向 上 进行 取舍 。 如 果 这 个 假设 最 终 被 
证 明 是 错误 的 ， 这 个 不 正确 的 预测 指令 就 会 被 删除 ， 它 的 预测 位 也 会 被 置 为 相反 值 ， 之 后 正 
确 的 指令 序列 会 被 取 指 并 执行 。 

这 种 1 位 的 预测 机 制 在 性 能 上 有 一 个 缺点 : 即使 一 个 条 件 分 支 总 是 发 生 跳 转 ， 但 一 旦 其 不 
发 生 跳 针 时 ， 就 会 造成 两 次 预测 错误 ， 而 不 是 只 造成 一 次 错误 。 下 面 这 个 示例 说 明了 这 件 事 。 


| 例题 | 循环 与 预测 -> 
现在 考虑 一 个 循环 分 支 ， 它 在 一 行 代码 中 发 生 了 9 次 跳 转 ， 之 后 产生 1 次 未 跳 转 。 假 定 
这 个 分 支 的 预测 位 在 预测 缓存 中 ， 请 计算 这 条 分 支 指令 的 预测 正确 率 。 
| 答案 | 稳定 状态 的 预测 行为 会 在 第 一 次 以 及 最 后 一 次 预测 循环 中 预测 失效 。 其 中 ， 最 后 一 
次 迭代 的 预测 失效 是 不 可 避免 的 ， 因 为 此 时 该 分 支 的 预测 位 会 设置 为 跳 转 ， 因 为 分 支 在 这 行 
代码 上 已 经 发 生 了 9 次 跳 转 。 在 第 一 次 迭代 时 分 支 预 测 错误 是 因为 在 循环 的 上 一 次 迭代 执行 
中 该 预测 位 被 设置 为 不 跳 转 。 因 此 ， 这 个 实际 发 生 跳 转 率 为 90% 的 分 支 的 分 支 预 测 正确 率 
只 有 80% (2 次 不 正确 的 预测 ，8 次 正确 预测 )。 


理想 状态 下 ， 对 于 规律 性 很 强 的 分 支 来 说 ， 分 支 预测 的 准确 率 应 该 与 分 支 发 生 的 频率 相 
匹配 。2 位 预测 机 制 经 常 为 了 纠正 上 述 缺 点 而 被 使 用 。 在 2 位 预测 机 制 中 ， 只 有 在 发 生 两 次 
错误 时 预测 结果 才 会 被 改变 。 图 4-61 是 这 个 2 位 预测 机 制 的 有 限 状 态 自 动机 。 

分 支 预测 缓存 可 以 被 实现 为 一 个 小 而 专用 的 、 可 以 被 下 阶段 的 指令 地 址 所 访问 的 缓存 。 
如 果 指 令 被 预测 为 跳 转 ， 一旦 新 的 PC 已 知 就 开始 从 目标 地 址 取 指 ， 正 如 之 前 所 述 ， 这 个 操 
作 可 以 被 前 移 至 ID 阶段 。 和 否则 ， 就 会 顺序 取 值 并 继续 执行 。 如 果 分 支 预测 错误 ， 预 测 位 就 
会 如 图 4-61 中 所 示 的 那样 改变 。 











未 发 生 跳 转 





未 发 生 跳 转 





图 4-61 2 位 预测 机 制 的 状态 转换 图 。 通 过 使 用 2 位 而 不 是 1 位 的 预测 位 ， 在 一 个 分 支 经 
常 发 生 跳 转 或 经 常 不 跳 转 的 情况 下 (大 多 数 分 支 都 是 这 样 的 ) 只 会 发 生 一 次 预测 失 
效 。2 位 预测 位 在 系统 中 可 以 被 编码 为 四 个 状态 。2 位 预测 机 制 是 基于 计数 器 的 预 
测 器 的 一 个 实例 ， 该 预测 器 在 分 支 跳 转 时 加 1， 在 分 支 不 跳 转 时 减 1， 并 且 使 用 表 


示范 围 的 中 位 数 作为 预测 分 支 跳 转 与 不 跳 转 之 间 的 分 界 点 


| 详细 阐述 分 支 预测 器 可 以 告知 我 们 条 件 分 支 是 否 会 发 生 跳 转 ， 
但 依然 需要 对 分 支 目标 地 址 进行 计算 。 在 五 级 流水 线 中 ， 这 种 计算 
需要 一 个 时 钟 周期 ， 这 意味 着 发 生 跳 转 时 需要 一 个 时 钟 周期 的 代价 
来 计算 分 支 目标 地 址 。 一 种 解决 方案 是 使 用 一 个 缓存 来 保存 目标 地 
址 或 目标 指令 以 作为 分 支 目标 缓存 。 

2 位 动态 预测 机 制 仅仅 使 用 特定 分 支 的 信息 。 研 究 表明 ， 对 于 
相同 的 预测 位 来 说 ， 同 时 使 用 局 部 分 支 和 最 近 执行 分 支 的 全 局 行为 
的 信息 能 够 获得 更 好 的 预测 准确 率 。 这 种 预测 器 被 称 为 相关 预测 器 。 
一 个 典型 的 相关 预测 器 对 于 每 个 分 支 都 提供 两 个 2 位 预测 器 ， 预 测 
器 之 间 的 选择 基于 分 支 的 上 一 次 执行 时 跳 转 还 是 不 跳 转 。 因 此 ， 全 
局 分 支行 为 可 以 被 看 作 在 预测 查找 表 中 添加 了 一 个 额外 的 索引 位 。 

另 一 种 分 支 预测 方法 是 使 用 锦标 赛 预测 器 。 锦 标 赛 分 支 预测 器 
对 于 每 个 分 支 使 用 多 种 预测 器 ， 并 最 终 给 出 一 个 最 佳 的 预测 结果 。 
典型 的 锦标 赛 预测 器 对 每 个 分 支 地 址 使 用 两 个 预测 : 一 个 基于 局 部 
信息 ， 而 另 一 个 基于 全 局 分 支行 为 。 一 个 选择 器 用 于 选择 采取 哪 一 
个 预测 器 的 信息 进行 预测 。 这 个 选择 器 的 操作 与 1 位 或 2 位 预测 器 
类 似 ， 选 择 两 个 预测 器 中 更 准确 的 那个 。 一 些 最 新 的 微 处 理 器 使 用 
了 这 种 预测 器 。 


分 支 目标 缓存 : 一 个 缓存 
分 支 目标 PC 值 或 目标 指 
令 的 结构 。 通 常 被 组 织 为 
一 个 带 有 标记 的 缓存 ， 相 
比 简单 的 预测 缓存 需要 更 
多 的 硬件 消耗 。 


相关 预测 器 : 一 种 组 合 了 
特殊 分 支 指令 的 局 部 行为 
和 最 近 执 行 的 一 些 分 支 指 
令 的 全 局 行为 信息 的 分 支 
预测 器 。 


锦标 赛 预 测 器 : 一 个 对 于 
每 个 分 支 具 有 多 种 预测 的 
分 支 预 测 器 ， 其 具有 一 种 
选择 机 制 ， 该 机 制 选择 对 
于 给 定 分 支 选 择 哪个 预测 
器 作为 预测 结果 。 


| 详细 阐述 一 种 减少 条 件 分 支 数量 的 方法 是 添加 条 件 移动 指令 。 与 条 件 分 支 指令 改变 
PC 值 不 同 ， 条件 移 动 指 令 根 据 条 件 改 变 移动 的 目标 寄存 器 。 例 如 ，ARMv8 指令 系统 中 有 一 
个 条 件 选择 指令 称 为 CSEL。 它 特别 定义 了 一 个 目标 寄存 器 、 两 个 源 寄存 器 和 一 个 条 件 。 如 
果 条 件 为 真 ， 则 目标 寄存 器 获得 第 一 个 操作 数 的 值 ， 否 则 获得 第 二 个 操作 数 的 值 。 对 于 指令 
CSEL X8,，X11，X4，NE 而 言 ， 如 果 条 件 代码 得 出 操作 结果 不 等 于 零 ， 则 将 寄存 器 11 中 的 
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值 拷贝 至 寄存 器 8， 如 果 结 果 等 于 零 ， 则 将 寄存 器 4 中 的 值 拷贝 至 寄存 器 8 中 。 因 此 ， 使 用 
ARMv8 指令 架构 的 程序 相 比 用 RISC-V 写 出 的 程序 拥有 更 少 的 条 件 分 支 指令 。 


4.8.4 流水 线 总 结 


我 们 从 洗衣 房 示例 开始 ， 介 绍 了 日 常生 活 中 的 流水 线 规则 。 用 这 个 示例 类 比 ， 我 们 逐步 
解释 了 指令 的 流水 化 ， 从 单 时 钟 周 期 数据 通路 开始 ， 之 后 加 入 了 流水 线 寄存 器 、 前 递 路 径 、 
数据 冒险 检测 、 分 支 预测 以 及 在 分 支 预测 错误 或 加 载 -使 用 数据 冒险 时 清除 指令 的 机 制 。 图 
4-62 是 最 终 的 数据 通路 和 控制 。 现 在 ， 我 们 已 经 准备 好 处 理 另外 一 种 控制 冒险 一 一 例外 ， 这 
是 一 个 环 手 的 问题 。 


IF.Flush 











detection [| | 
































图 4-62 ”本章 最 终 的 数据 通路 和 控制 图 。 需 要 注意 的 是 ， 本 图 只 是 一 张 示 意图 ， 没 有 标注 
诸如 图 4-55 中 的 ALUsrc Mux 和 图 4-49 中 的 多 选 控制 器 这 样 的 完整 数据 通路 中 的 
细节 





4.9 例外 
控制 逻辑 是 处 理 絮 设计 中 最 有 挑战 的 部 分 : 验证 正确 性 最 为 困难 ， 同 时 也 最 难 进行 时 序 
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优化 。 例 外 (exception) 和 中 断 (interrupt) 是 控制 丈 辑 需要 实现 的 
任务 之 一 。 除 分 支 指令 外 ， 它 是 另 一 种 改变 指令 执行 控制 流 的 方式 。 
最 初 ， 人 们 使 用 它们 是 为 了 处 理 CPU 内 部 的 意外 事件 ， 例 如 未 定义 
指令 。 后 续 经 扩展 也 可 处 理 与 CPU 进行 通信 的 IO 设备 ， 这 部 分 将 
在 第 5 章 进行 讨论 。 

许多 体系 结构 设计 者 和 相关 书籍 作者 并 不 区 分 中 断 和 例外 ， 经 
常 使 用 其 中 一 种 同时 指 代 两 者 。 比 如 ，Intel x86 中 就 是 使 用 中 断 。 
在 本 书 中 ,我们 使 用 例外 来 指 代 意 外 的 控制 流 变 化 ， 而 这 些 变化 
无 须 区 分 产生 原因 是 来 自 于 处 理 器 内 部 还 是 外 部 ; 使 用 中 断 仅仅 
指 代 由 处 理 器 外 部 事件 引发 的 控制 流 变 化 。 下 表 是 一 些 示 例 ， 包 
括 例外 的 类 型 、 引 发 例外 的 事件 来 源 以 及 在 RISC-V 体系 结构 中 的 
表示 。 


为 处 理 器 设计 自动 中 断 处 
理 并 不 是 一 件 简 单 的 事 
情 ， 因 为 中 断 信号 产生 时 
处 于 处 理 器 各 个 阶段 的 指 
令 数目 将 会 非常 多 。 

Fred Brooks, 7., Planning 

a Computer System: Project 
Swerch, 19062 


例外 : 也 称 中 断 ， 指 那些 
打 断 程序 正常 执行 的 意外 
事件 ， 比 如 未 定义 指令 。 
中 断 : 来 自 于 处 理 器 外 部 的 
例外 ， 一 些 体 系 结构 也 会 
使 用 中 断 表 示 所 有 的 例外 。 























系统 重启 外 部 例外 
I/0 设 备 请 求 | 外 部 中 断 
用 户 程序 进行 操作 系统 调用 内 部 例外 
| 未 定义 指令 内 部 例外 
| 硬件 故障 皆 可 皆 可 








例外 处 理 的 许多 功能 需求 来 自 于 引发 例外 的 特定 场合 。 因 此 ,第 5 章 时 我 们 将 重新 讨论 
这 些 内容 , -届时 将 对 满足 这 些 功能 需求 的 动机 有 更 深刻 的 理解 。 在 本 章节 中 ,我 们 只 涉及 检 
测 例 外 类 型 的 控制 逻辑 实现 ， 这 些 例外 和 我 们 之 前 讨论 过 的 指令 系统 及 微 结构 实现 是 相关 的 。 

通常 ， 检 测 和 处 理 例 外 的 控制 逻辑 会 处 于 处 理 器 的 时 序 关键 路 径 上 ， 这 对 处 理 器 时 钟 频 
率 和 性 能 都 会 产生 重要 影响 。 如 果 对 控制 逻辑 中 的 例外 处理 不 给 予 充 分 重视 ,一 旦 尝试 在 复 
杂 设 计 中 添加 例外 处 理 ， 将 会 明显 降低 处 理 器 的 性 能 。 这 和 处 理 顺 验证 一 样 复杂 。 


4.9.1 RISC-V 体系 结构 中 如 何 处 理 例 外 


在 目前 所 讲 过 的 实现 中 ， 只 存在 两 种 例外 类 型 : 未 定义 指令 和 硬件 故障 。 例 如 ， 假 设 
在 指令 add x1 ，x2 ,XxX1 执行 时 出 现 硬件 故障 。 当 例外 发 生 时 ， 处 理 器 必须 执行 的 基本 动作 
是 : 在 系统 例外 程序 计数 器 ( Supervisor Exception Program Counter，SEPC) 中 保存 发 生 例外 
的 指令 地 址 ， 同 时 将 控制 权 转交 给 操作 系统 。 

之 后 ,操作 系 统 将 做 出 相应 动作 ， 包 括 为 用 户 程 序 提供 系统 服务 ,硬件 故障 时 执行 预先 
定义 好 的 操作 ， 或 者 停止 当前 程序 的 执行 并 报告 错误 。 完 成 例外 处 理 的 所 有 操作 后 ， 操 作 系 
统 使 用 SEPC 寄存 器 中 的 内 容重 启程 序 的 正常 执行 。 可 能 是 继续 执行 原 程 序 ， 也 可 能 是 终止 
程序 。 对 于 重启 程序 执行 ， 在 第 5 章 将 进行 更 为 深入 的 讨论 。 

操作 系统 进行 例外 处 理 ， 除 了 引发 例外 的 指令 外 ， 还 必须 获得 例外 发 生 的 原因 。 目 前 使 
用 两 种 方法 来 通知 操作 系统 。RISC-V 中 使 用 的 方法 是 设置 系统 例外 原因 寄存 器 ( Supervisor 
Exception Cause Register，SCAUSE )， 该 寄存 器 中 记录 了 例外 原因 。 

另 一 种 方法 是 使 用 向 量 式 中 断 (vectored interrupt) 。 该 方法 用 
基 址 寄存 器 加 上 例外 原因 〈 作 为 偏 移 ) 作为 目标 地 址 来 完成 控制 流转 


向 量 式 中 断 : 一 种 中 断 处 理 
机 制 ， 根 据 例 外 原因 来 决 
定 后 续 控制 流 的 起 始 地 址 。 








换 。 基 址 寄存 器 中 保存 了 向 量 式 中 断 内 存 区 域 的 起 始 地 址 。 比 如 ， 我 们 可 以 根据 例外 类 型 定 
义 下 述 两 类 例外 的 例外 向 量 起 始 地 址 。 


例外 类 型 例外 向 量 地 址 ， 即 偏 移 ， 与 中 断 向 量 表 基 地 址 相 加 


| 未 定义 指令 00 0100 0000。 
| “系统 错误 ( 硬件 故障 ) 01 1000 0000, 


操作 系统 可 根据 例外 向 量 起 始 地 址 来 确定 例外 原因 。 如 果 不 使 用 此 种 方法 ， 如 RISC-V， 
就 需要 为 所 有 例外 提供 统一 的 和 人口 地 址 ， 由 操作 系统 解析 状态 寄存 器 来 确定 例外 原因 。 对 于 
使 用 向 量 式 例 外 的 设计 者 ， 每 个 例外 入 口 需要 提供 比如 32 字 节 或 8 条 指令 大 小 的 区 域 ， 供 
操作 系统 记录 例外 原因 并 进行 简单 处 理 。 

通过 添加 一 些 额 外 寄存 器 和 控制 信号 ， 并 稍微 扩展 控制 逻辑 ， 就 可 以 完成 对 各 种 例外 
的 处 理 。 假 设 ,我 们 使 用 统一 人口 地 址 的 方式 实现 例外 处 理 , 设置 该 地 址 为 0000 0000 1C09 
000016。( 实 现 向 量 式 例 外 与 此 难度 相当 。) 我 们 需要 在 当前 RISC-V 的 实现 中 添加 两 个 额外 的 
寄存 器 。 

e SEPC: 64 位 寄存 器 ， 用 来 保存 引起 例外 的 指令 的 地 址 。( 该 寄存 器 在 向 量 式 例 外 中 也 
需要 使 用 。) 
SCAUSE : 用 来 记录 例外 原因 的 寄存 器 。 在 RISC-V 体系 结构 中 ， 该 寄存 器 为 64 位 ， 
大 多 数位 未 被 使 用 。 假 设 对 上 述 提 及 的 两 种 例外 类 型 进行 编码 并 记录 ， 其 中 未 定义 指 
令 的 编码 为 2， 硬 件 故障 的 编码 为 12。 


4.9.2 ”流水线 实现 中 的 例外 


流水 线 实 现 中 ， 将 例外 处 理 看 成 另 一 种 控制 冒险 。 例 如 ， 假 设 add 指令 执行 时 产生 硬 
件 故障 。 正 如 之 前 章节 中 处 理发 生 跳 转 的 分 支 一 样 ， 我 们 需要 在 流水 线 上 清除 掉 add 之 后 
的 指令 ， 并 从 新 地 址 开始 取 指 。 和 处 理 分 支 指令 不 同 的 是 ， 例 外 会 引起 系统 状态 的 变化 。 

处 理 分 支 预测 错误 时 ， 我 们 将 取 指 阶段 的 指令 变 为 空 操 作 ( nop)， 以 此 来 消除 影响 。 对 
于 进入 译 码 阶段 的 指令 ， 增 加 新 逻辑 控制 译 码 阶 段 的 多 选 器 使 输出 为 0， 流水 线 停顿 。 添 加 
一 个 新 的 控制 信号 ID.Flush， 它 与 来 自 于 冒险 检测 单元 的 stall 信号 进行 或 (OR) 操作。 使 用 
该 信号 对 进入 译 码 阶段 的 指令 进行 清除 。 对 于 进入 执行 阶段 的 指令 ， 我们 使 用 一 个 新 的 控制 
信号 EX.Flush， 使 得 多 选 器 输出 为 0。RISC-V 体系 结构 中 使 用 0000 0000 1C09 000016 作为 
例外 入 口 地 址 。 为 保证 从 正确 地 址 开始 取 指 ， 我 们 为 PC 多 选 器 新 增 一 个 输入 ， 保 证 能 将 上 
述 例外 入 口 地 址 送 给 PC 寄存 器 。 具 体 见 图 4-63。 

上 述 例子 指出 了 例外 处 理 需 要 注意 的 一 个 问题 ， 如 果 我 们 在 add 指令 执行 完毕 后 检测 
例外 ， 程 序 员 将 无 法 获得 xl 寄存 器 中 的 原 值 ， 因 为 它 已 更 新 为 add 指令 的 执行 结果 。 如 果 
我 们 在 add 指令 的 EX 阶段 检测 例外 ， 可 以 使 用 EX.Flush 信号 去 避免 该 指令 在 WB 阶段 更 
新 寄存 器 。 有 一 些 例 外 类 型 ， 需 要 最 终 完成 引发 例外 的 指令 的 执行 。 最 简单 的 方法 就 是 清除 
掉 该 指令 ， 并 在 例外 处 理 结束 后 从 该 指令 重新 开始 执行 。 

最 后 一 步 是 ， 在 SEPC 寄存 器 中 保存 引发 例外 的 指令 的 地 址 。 图 4-63 中 显示 了 详细 的 
数据 通路 ， 包 括 处 理 分 支 的 硬件 逻辑 和 处 理 例 外 新 增 修改 。 
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图 4-63 ”例外 处 理 的 数据 通路 和 控制 信号 。 新 增 的 关键 逻辑 包括 : PC 选择 器 新 增 输入 0000 
0000 1C09 000016 ; 新 增 SCAUSE 寄存 器 来 记录 例外 原因 ; 新 增 SEPC 寄存 器 保存 
引起 例外 的 指令 的 地 址 。0000 0000 1C09 000016 是 例外 处 理 程序 的 统一 入 口 地 址 


| 例题 | 流水 线 处 理 器 中 的 例外 -一 
给 定 下 面 的 指令 序列 : 


40 Sub > 光 叶 
44 and 必 这 届 风 
48 or 3 2 X6 
4C。 add Od 
50 sub WL Dy 
54 .id X16 400(X7) 





假设 例外 处 理 程序 入 口 的 指令 序列 如 下 : 


1C090000,, sd x26, 1000(x10) 
1C090004, sd x27, 1008(x10) 


如 果 add 指令 发 生硬 件 故障 例外 ， 流 水 线 会 如 何 变化 ? 
| 答案 | 图 4-64 中 从 add 指令 进入 EX 阶段 开始 ， 假 设 该 阶段 检测 出 硬件 故障 ，0000 000 
1C09 0000i6 被 送 给 PC 寄存 器 。Clock 7 时 ，add 及 其 后 续 指 令 都 被 清除 掉 ， 从 例外 处 理 程 
序 的 第 一 条 指令 开始 取 值 。 注 意 ，add 指令 的 地 址 4Cie 被 保存 。 


前 面 提 到 了 一 些 关 于 例外 的 例子 ， 将 来 在 第 5 章 时 还 会 讨论 。 对 于 流水 线 处 理 器 ， 每 
个 周期 同时 有 5 条 指令 在 流水 线 中 执行 ， 例 外 处 理 的 挑战 在 于 如 何 将 各 种 例外 与 指令 进行 对 
应 。 而 且 ， 同 一 个 周期 内 可 以 同时 发 生 多 个 例外 。 解 决 方案 是 ， 对 例外 进行 优先 级 排列 ， 便 
于 判断 服务 顺序 。 在 RISC-V 实现 中 ， 硬 件 实现 例外 的 优先 级 排序 。 











ld x16, 100(x7) sub x15, x6, x7 1 addx1, x2, x1 TS nd ss 














IF.Flush 














Clock 6 


sd x26, 1000(x0) . bubble (nop) ' bubble 5 bubble EI 











IF.Flush 
[ 





Hazard 
] detection 








Clock 7 








图 4-64 add 指令 发 生硬 件 故障 的 例外 处 理 结果 。 第 6 个 周期 ， 处 于 EX 阶段 的 add 指令 
检测 到 例外 ， 在 SEPC 寄存 器 中 保存 add 指令 的 地 址 (4Cie )， 所 有 Flush 信号 进 
行 重 置 ，add 指令 的 所 有 控制 信号 置 为 无 效 (数值 设 为 0)。 第 7 个 周期 ， 在 流水 
线 中 插入 气泡 ， 从 例外 处 理 例 程 入 口 地 址 0000 0000 1C09 0000is 开 始 取 第 一 条 指 
令 sd x26,1000(x0)。 注 意 : and 和 or 指令 在 add 指令 之 前 进入 流水 线 ， 


IO 设备 请 求 和 硬件 故障 与 指令 无 关 ， 因 此 例外 响应 和 处 理 有 较 大 的 灵活 性 。 因 而 ， 
用 其 他 例外 的 处 理 机 制 也 能 正常 工作 。 
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SEPC 寄存 器 保存 引发 例外 的 指令 的 地 址 。 如 果 有 多 个 例外 同时 发 生 ，SCAUSE 寄存 器 
下 用 划 于 前 最 高 优先 级 的 例外 信 息 。 
软件 接 辐 | 硬件 和 操作 系统 必须 协同 工作 ， 例 外 行为 才 会 如 设计 者 所 愿 。 按 照 约 
定 ， 硬件 暂停 引发 例外 的 指令 的 执行 行 ， 完 成 流水 线 中 所 有 之 前 指令 的 操作 ， 清 除 掉 之 后 的 
指令 ， 设 置 寄 存 器 记录 例外 原因 ， 保 存 引发 例外 的 指令 的 地 址 ， 并 转向 例外 处 理 程 序 入 口 执 
行 。 操 作 系 统 查询 例外 原因 寄存 器 并 做 出 相应 动作 。 对 于 未 定义 指令 或 者 硬件 故障 ， 一 般 操 
作 系 统 会 停止 程序 的 执行 并 返回 例外 类 型 。 对 于 IO 设备 请 求 或 系统 调用 ， 操 作 系 统 保存 程 
序 状 态 ， 完 成 预定 任务 ， 并 在 不 久之 后 恢复 状态 重新 开始 执行 程序 。 特 别 是 IO 设备 请 求 ， 
操作 系统 会 调度 其 他 程序 执行 ， 直 到 该 IO 请 求 完 成 再 继续 执行 发 生 例外 的 程序 。 若 想 加 快 
例外 处 理 的 速度 ， 保 存 和 恢复 程序 状态 是 非常 关键 的 。 一 种 常见 的 重要 例外 是 处 理 器 的 缺 页 
异常 (page fault)。 第 5 章 我 们 将 更 详细 的 介绍 它们 。 
| 姨 弄 羡 驻 在 流水 线 处 理 器 中 ， 将 例外 和 指令 正确 关联 起 来 存 | 非 精确 中 断 ， 也 称 为 非 精 
在 一 定 难度 ， 一 些 处 理 器 设计 者 在 非 关 键 情况 下 考虑 放松 对 此 的 要 | 确 例外 。 流 水 线 中 的 例外 
求 。 这 样 的 处 理 机 制 被 称 为 非 精 确 中 断 (imprecise interrupts) 或 者 | 或 中 断 并 未 和 引发 该 例外 
非 精 确 例外 (imprecise exception)。 在 上 文 的 例子 中 ， 当 流水 线 检测 Ts 
到 例外 时 程序 计数 器 PC 已 经 变 为 5816， 而 发 生 例 外 的 是 地 址 为 4Cie 
的 add 指令 。 具 有 非 精确 例外 的 处 理 器 将 在 SEPC 寄存 器 中 保存 | 和 站 二 二 和 计生 四 用 
5816， 让 操作 系统 去 判断 到 底 是 哪 条 指令 引发 了 例外 。 与 大 多 数 处 理 | 全 让 站 生生 癌 
器 相同 ，RISC-V 支持 精确 中 断 或 精确 例外 。 一 个 原因 是 ， 当 流水 线 | 指令 精确 对 应 。 
不 断 加 深 时 ， 非 精确 例外 会 增加 操作 系统 处 理 的 难度 和 复杂 度 。 为 
避免 该 问题 ， 深 度 流水 线 应 该 和 五 级 流水 线 一 样 ， 记 录 引 发 例外 的 指令 的 地 址 ， 这 会 简化 软 
硬件 的 设计 。 另 另 一 个 原因 是 考虑 到 支持 虚拟 内 存 ， 此 点 我 们 在 第 5 章 再 进行 讨论 。 
壕 ; RISC-V 指令 系统 中 使 用 0000 0000 1C09 0000is 作为 例外 入 口 地 址 ， 这 个 选 
择 稍 显 随意 。 一 些 RISC-V 处 理 器 在 实现 时 将 例外 入 口 地 址 保存 在 特殊 的 寄存 器 ( Supervisor 
Trap Vector，STVEC) 中 ， 操 作 系 统 可 以 通过 它 来 配置 例外 入 口 地 址 。 











4.10 指令 间 的 并 行 性 
说 明 : 本 节 是 对 一 些 高 级 复杂 专题 的 概述 。 如 果 你 想 了 解 更 多 内 容 ， 可 参考 我 们 的 另 一 


本 书 :《 计 算 机 体系 结构 : 量化 研究 方法 》( 第 5 版 )。 本 节 这 几 页 内 容 将 扩展 为 200 页 ， 包括 
附录 。 





如 技术 挖 气 了 指令 间 洪 在 的 圈 昭 附 ， 这 种 并 行 性 被 称 为 指 “| 指令 级 并 行 ， 指 信 间 的 并 
令 级 并 行 (ILP)。 提 高 指令 级 并 行 度 主要 有 两 种 方法 。 第 一 种 是 增 | 行 性 。 

加 流水 线 的 级 数 ， 让 更 多 的 指令 重 闪 执 行 。 仍 然 使 用 上 文 提 到 的 洗 

衣 店 进行 类 比 。 假 设 洗衣 阶段 所 需 时 间 比 其 他 阶段 都 长 ， 我 们 可 以 将 洗衣 阶段 再 细 分 为 洗 
涤 、 漂 洗 和 甩 干 三 个 阶段 。 这 样 就 将 一 个 四 级 流水 线 变 为 六 级 流水 线 。 不 论 是 处 理 器 还 是 洗 
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衣 店 ， 如 需 获得 最 高 加 速 比 ， 还 要 重新 调整 其 他 阶段 的 时 长 至 相等 来 平衡 流水 线 。 加 深 流水 
线 后 ， 由 于 有 更 多 的 操作 可 以 重奏 执行 ， 指 令 间 的 并 行 度 更 高 。 同 时 ， 时 钟 周期 变 短 ， 主 频 
变 高 ， 处 理 器 性 能 也 就 更 高 。 

另 一 种 提高 指令 并 行 度 的 方法 是 ， 增 加 流水 线 内 部 的 功能 部 | 多 发 射 ， 一 个 时 钟 周期 内 
件数 量 ， 这 样 可 以 每 周期 发 出 多 条 指令 。 这 种 技术 被 称 为 多 发 射 | 可 以 发 射 多 条 指令 的 策略 。 
( multiple issue)。 一 个 拥有 三 个 洗衣 机 和 三 个 烘 干 机 的 多 发 射 洗衣 
店 代替 了 之 前 的 家 庭 式 洗衣 机 和 烘 干 机 。 也 许 你 还 需要 招聘 一 些 助手 来 折合 和 收纳 ， 这 样 就 
能 在 相同 时 间 内 完成 之 前 的 三 倍 工 作 量 。 唯 一 的 缺点 在 于 ， 需 要 在 相 邻 流水 阶段 之 间 传 递 负 
载 ， 并 保证 所 有 机 器 都 满 负 荷 工 作 ， 这 增加 了 额外 的 工作 量 。 

每 周期 发 射 多 条 指令 ， 使 得 指令 执行 频率 可 以 超过 时 钟 频 率 。 换 句 话 来 说 ， 就 是 CPI 可 
以 小 于 1。 在 第 1 章 中 我 们 提 过 ， 有 时 候 衡量 指标 的 倒数 也 是 有 用 的 ， 例 如 IPC， 即 每 个 周 
期 的 执行 指令 数 。 举 例 ， 一 个 主 频 为 3GHz、 发 射 宽度 为 4 的 多 发 射 处 理 器 ， 峰 值 速 度 为 每 
秒 执行 120 亿 条 指令 ， 理 论 上 CPI 为 0.25， 或 IPC 为 4。 如 果 这 是 一 个 五 级 流水 的 处 理 器 ， 
那么 同一 时 间 内 流水 线 中 最 多 会 有 20 条 指令 在 执行 。 目 前 高 端 处 理 器 的 发 射 宽 度 为 每 周期 
3 一 6 条 指令 ， 普 通 处 理 器 的 发 射 宽度 一 般 为 2。 不 过 ， 多 发 射 技 术 会 有 一 些 限 制 ， 例 如 哪 
些 指令 可 以 同时 执行 、 如 果 发 生 冒 险 如 何 处 理 等 。 

实现 多 发 射 处 理 器 主要 有 两 种 方法 ， 区 别 在 于 编译 器 和 硬件 的 
不 同 分 工 。 如 果 指 令 发 射 与 否 的 判断 是 在 编译 时 完成 的 ， 称 为 静态 


静态 多 发 射 : 多 发 射 的 一 
种 实现 方法 ， 由 编译 器 完 





多 发 射 (static multiple issue)。 如 果 指令 发 射 与 否 的 判断 是 在 动态 执 。| 和 和 伏 胡 相 关 浊 。 
行 过 程 中 由 硬件 完成 的 ， 称 为 动态 多 发 射 ( dynamic multiple issue ) 。 a 
这 两 个 方法 可 能 还 有 其 他 一 些 名 称 ， 但 都 不 够 准确 或 限制 过 严 。 es 


在 多 发 射流 水 线 中 ， 需 要 处 理 如 下 两 个 主要 任务 : 过 程 中 由 硬件 完成 发 射 相 

1. 将 指令 打包 并 放 入 发射 槽 。 处 理 器 如 何 判断 本 周期 发 射 多 少 | 关 判 断 。 
条 指令 ? 发 射 哪些 指令 ? 在 大 多 数 静态 发 射 处 理 器 中 ， 编 译 器 会 完 
成 这 部 分 工作 。 而 在 动态 发 射 处 理 器 中 ， 这 部 分 工作 通常 会 在 运行 | 
时 由 硬件 自动 完成 ， 编 译 器 可 以 通过 指令 调度 来 提高 发 射 效率 。 

2. 处 理 数据 和 控制 冒险 。 在 静态 发 射 处 理 器 中 ， 编 译 器 静态 处 理 了 部 分 或 所 有 指令 序列 
中 存在 的 数据 和 控制 冒险 。 相 应 的 ， 大 多 数 动态 发 射 处 理 器 是 在 执行 过 程 中 使 用 硬件 技术 来 
解决 部 分 或 所 有 类 型 的 冒险 。 

对 于 静态 发 射 和 动态 发 射 ， 虽 然 我 们 把 它们 描述 成 两 种 截然 不 同 的 方法 ， 但 在 实际 中 ， 
不 同 的 方法 间 经 常 互相 借鉴 ， 没 有 哪 一 种 方法 能 说 自己 很 纯粹 。 


4.10.1 推测 的 概念 


推测 是 另 一 种 非常 重要 的 深度 挖掘 指令 级 并 行 的 方法 。 以 甘 测 | 推出， 编译 器 或 者 处 理 器 
思想 为 基础 ， 推 测 方法 允许 编译 器 或 处 理 器 来 “猜测 ”指令 的 行为 ， | " 铺 届 ”指令 的 行为 ， 以 
并 人 允许 其 他 与 被 推测 指令 相关 的 指令 提前 开始 执行 。 例 如 ， 我 们 可 re 
以 对 分 支 指令 结果 进行 推测 ， 这 样 分 支 指令 之 后 的 指令 可 以 提早 执 
行 。 再 例如 ， 对 于 先 store 再 load 的 指令 序列 ， 可 以 推测 两 条 指令 的 访 存 地 址 不 同 ， 这 样 允 
许 load 先 于 store 执行 。 推 测 的 难点 在 于 预测 结果 可 能 出 现 错误 。 因 此 ， 所 有 推测 机 制 都 必 
须 包 括 预测 结果 正确 性 的 检查 机 制 ， 以 及 预测 出 错 后 的 恢复 机 制 ， 以 消除 推测 式 执行 带 来 的 


发 射 槽 : 指令 发 射 时 所 处 
位 置 ， 可 类 比 为 起 跑 位 置 。 
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影响 。 这 种 恢复 机 制 的 实现 增加 了 结构 设计 的 复杂 度 。 

可 以 在 编译 时 完成 推测 ， 也 可 以 在 执行 时 由 硬件 完成 推测 。 例 如 ， 编 译 器 可 以 根据 推 
测 结果 进行 指令 顺序 重 排 ， 将 分 支 后 指令 移动 到 分 支 指令 前 ， 或 者 将 load 指令 移动 到 store 
指令 前 。 处 理 器 硬件 也 可 以 在 动态 执行 时 完成 相同 的 操作 ， 所 使 用 的 技术 将 在 本 节 稍 后 
讨论 。 

实现 推测 错误 时 的 恢复 机 制 非常 困难 。 在 软件 实现 的 推测 中 ， 编 译 器 经 常 需 要 插 人 额外 
的 指令 来 检查 推测 的 正确 性 ， 并 在 检测 到 推测 错误 时 提供 例 程 进行 恢复 。 在 硬件 推测 式 执行 
中 ， 处 理 器 通常 会 保存 推测 的 结果 直到 推测 被 确定 是 正确 的 。 如 果 推 测 是 正确 的 ， 将 使 用 保 
存 的 推测 结果 更 新 寄存 器 或 存储 器 ， 完 成 推测 路 径 上 的 指令 。 如 果 推 测 是 错误 的 ， 硬 件 清除 
推测 结果 ， 并 从 正确 的 指令 处 重新 开始 执行 。 推 测 错误 需要 对 流水 线 进行 恢复 或 者 停顿 ， 这 
显然 会 极 大 地 降低 性 能 。 

推测 式 执 行 还 会 引入 另 一 个 问题 : 对 某 条 指令 进行 推测 还 可 能 引入 不 必要 的 例外 。 例 如 ， 
假设 某 条 load 指令 处 于 推测 式 执行 ， 同 时 该 load 指令 的 访 存 地 址 发 生 了 越界 ， 则 会 引发 例 
外 。 如 果 推 测 是 错误 的 ， 这 就 意味 着 发 生 了 本 不 该 发 生 的 例外 。 这 个 问题 非常 复杂 ， 因 为 如 
果 这 条 load 指令 不 是 推测 执行 ， 那 么 例外 是 一 定 会 发 生 的 。 对 于 编译 支持 的 推测 式 执行 ， 可 
以 通过 添加 特定 支持 来 避免 这 样 的 问题 ， 对 此 类 例外 一 直 延 迟 响 应 直到 确认 推测 正确 。 对 于 
硬件 推测 式 执行 ， 例 外 将 被 记录 直到 确认 推测 正确 ， 这 时 被 推测 的 指令 将 被 提交 ， 检 测 到 例 
外 ， 转 入 正常 的 例外 处 理 程 序 进行 处 理 。 

如 果 推 测 正确 ， 处 理 器 的 性 能 将 被 改善 ; 一 旦 推测 错误 ， 处 理 器 的 性 能 会 受到 较 大 影响 。 
人 们 投入 大 量 的 精力 去 研究 何 时 进行 推测 。 在 本 节 后 面 的 内 容 中 ， 我 们 将 详细 介绍 静态 和 动 
态 的 推测 技术 。 


4.10.2 ”静态 多 发 射 


静态 多 发 射 处 理 器 是 由 编译 器 来 支持 指令 打包 和 处 理 指令 间 的 “| 发 射 指令 包 : 同一 周期 发 
冒险 。 对 于 静态 多 发 射 处 理 器 ， 可 以 将 同一 周期 发 射出 去 的 指令 集 | 射 的 指令 组 合 。 可 能 是 由 
合 (一 般 被 称 为 发 射 指令 包 ) 看 成 一 条 需要 进行 多 种 操作 的 “大 指 2 
令 " 。 这 样 说 并 不 仅仅 是 为 了 类 比 。 因 为 静态 多 发 射 处 理 器 通常 会 对 “| 得 进行 调 并 
同一 周期 发 射 的 指令 类 型 进行 限制 ， 将 发 射 指令 包 看 成 一 条 预先 定 
义 好 、 需 要 进行 多 种 操作 的 指令 ， 这 正 符合 超 长 指令 字 ( Very Long ee 
Instruction Word，VLIW) 的 设计 思路 。 指令 系统 体系 结构 ， 支 持 

同时 ， 大 多 数 静 态 发 射 处 理 器 也 依赖 编译 器 来 处 理 数据 和 控制 | 在 单条 指令 中 使 用 不 同 的 
冒险 。 编 译 器 的 任务 包括 静态 分 支 预测 和 代码 调度 ， 以 减少 或 消除 ”| 编码 位 来 定义 多 个 可 同时 
所 有 的 冒险 。 在 描述 更 先进 处 理 器 中 所 采用 的 技术 之 前 ， 先 来 看 一 | 窜改 身 的 天 了 操 人 
个 简单 的 静态 多 发 射 RISC-V 处 理 器 的 例子 。 

举例 : 静态 多 发 射 RISC-V 处 理 器 

为 了 解 静 态 多 发 射 技术 ,我 们 考察 一 个 简单 的 双 发 射 RISC-V 处 理 器 。 其 中 ， 指 令 序列 
中 的 一 条 指令 是 定点 ALU 指令 或 者 分 支 指令 ， 男 一 条 指令 是 load 或 者 store 指令 。 通 常 , 一 
些 垦 入 式 处 理 器 正 是 如 此 来 使 用 。 单 个 周期 内 发 射 两 条 指令 需要 同时 取 指 和 译 码 64 位 指令 。 
在 许多 静态 单 发 射 处 理 器 ， 特 别 是 超 长 指令 字 处 理 器 中 ， 为 简化 指令 的 译 码 和 发 射 对 可 同 
时 发 射 的 指令 组 合 做 出 了 限制 。 例 如 ， 需 要 指令 成 对 ， 指 令 地 址 需要 64 位 边界 对 齐 ，ALU 
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指令 和 分 支 指令 放 在 前 面 。 而 且 ， 如 果 指 令 对 中 的 一 条 指令 无 法 发 射 ， 需 要 将 其 替换 成 nop 
指令 。 这 样 一 来 ， 就 保证 了 指令 总 是 成 对 发 射 ， 当 然 其 中 一 条 可 能 是 nop。 图 4-65 给 出 了 
指令 成 对 进入 流水 线 的 过 程 。 


泊 水 二 防 和 





























ALU 或 分 支 指令 | IF ID EX MEM | WB 

load 或 store 指 令 | IF ID EX MEM | WB 

ALU 或 分 支 指令 IF ID EX MEM | WB 

load 或 store 指 令 IF 1D EX MEM | WB 

ALU 或 分 支 指令 IF ID EX MEM |WB 

load 或 store 指 令 IF iD |Ex MEM |WB 

ALU 或 分 支 指令 | FE ID EX MEM |WB 
load 或 store 指 令 IF ID EX MEM WB 
































图 4-65 静态 双 发 射流 水 线 操作 。ALU 和 数据 传输 类 指令 同时 被 发 射 。 假 设 使 用 和 单 发 射 
流水 线 相同 的 五 级 流水 结构 。 虽 然 这 样 的 流水 级 划分 并 不 是 严格 必需 的 ， 但 确实 能 
带 来 一 些 好 处 。 尤 其 是 ， 所 有 指令 统一 在 最 后 一 个 流水 级 进行 寄存 器 更 新 ， 这 样 有 
助 于 实现 精确 例外 模型 ， 简 化 例外 处 理 的 实现 。 如 上 所 述 ， 例 外 处 理 在 多 发 射 处 理 
器 实现 中 是 一 个 难点 


静态 多 发 射 处 理 器 对 于 潜在 的 数据 和 控制 冒险 有 不 同 的 解决 方案 。 在 一 些 设计 实现 中 ， 
由 编译 器 来 实现 所 有 冒险 的 解决 、 代 码 的 调度 以 及 插入 相应 的 nop。 因 此 在 代码 动态 执行 过 
程 中 ， 硬 件 可 以 完全 不 去 关心 骨 险 检测 或 者 流水 线 停顿 的 产生 。 而 在 另 一 些 设计 实现 中 ， 使 
用 硬件 来 检测 两 个 指令 包 之 间 的 数据 冒险 ， 并 产生 相应 的 流水 线 停顿 。 编 译 器 只 负责 在 单个 
指令 包 中 检测 所 有 类 型 的 相关 。 即 便 如 此 ， 单 个 冒险 也 通常 会 导致 整个 指令 包 的 发 射 停顿 。 
不 论 是 采用 软件 来 解决 所 有 的 冒险 ， 还 是 仅 在 两 个 指令 包间 降低 冒险 发 生 的 比例 ， 如 果 使 用 
上 文中 提 到 的 “单条 大 指令 ”的 思想 来 进行 分 析 ， 将 更 有 助 于 加 次 理解 。 在 下 文 的 例子 中 ， 
我 们 假设 使 用 的 是 第 二 种 方法 ， 即 用 硬件 来 检测 两 个 指令 包 之 间 的 数据 冒险 ， 编 译 器 只 负责 
在 单个 指令 包 中 检测 所 有 类 型 的 相关 。 

如 果 想 同时 发 射 ALU 和 数据 传输 类 指令 ， 除 了 上 文 所 说 的 冒险 检测 和 流水 线 停顿 逻 
辑 ， 首 先 需 要 添加 的 硬件 资源 是 寄存 器 堆 的 读 写 口 (具体 见 图 4-66 )。 在 同一 个 时 钟 周期 内 ， 
ALU 指令 需要 读 取 两 个 源 寄存 器 ，store 指令 可 能 需要 读 取 两 个 以 上 的 源 寄存 器 ; ALU 指 
令 需 要 更 新 一 个 目标 寄存 器 ，load 指令 也 需要 更 新 一 个 目标 寄存 器 。 由 于 ALU 部 件 只 负责 
ALU 指令 的 执行 ， 因 此 还 需要 额外 增加 一 个 加 法 器 来 进行 访 存 地 址 的 计算 。 如 果 不 增加 这 些 
额外 的 硬件 资源 ， 我 们 的 双 发 射流 水 线 将 产生 大 量 的 结构 冒险 。 

很 明显 ， 这 种 双 发 射 处 理 器 最 多 能 提高 两 倍 的 性 能 ,但 这 也 需要 程序 中 存在 两 倍 的 、 可 
重 释 执行 的 指令 数目 。 而 这 种 重生 执行 又 会 因 增 加 数据 和 控制 冒险 而 导致 性 能 损失 。 例 如 ， 
在 我 们 的 简单 五 级 流水 线 结构 中 ，load 指令 有 一 个 周期 的 使 用 延迟 (use latency)。 如 果 下 一 
条 指令 需要 使 用 load 指令 的 结果 ， 那 么 它 必 须 停顿 一 周期 。 同 样 ， A? 
在 双 发 射 五 级 流水 线 结构 中 ，load 指令 也 存在 一 个 周期 的 使 用 延迟 ， | 使 用 load 指令 的 执行 结果 ， 
而 这 时 需要 停顿 后 续 两 条 指令 (ALU 和 load/store 指令 ) 的 执行 。 而 “| 在 load 指令 和 后 续 相 关 指 
且 ， 在 单 发 射 五 级 流水 线 中 ，ALU 指令 本 来 是 没有 使 用 延迟 的 。 但 “| 令 间 插入 的 时 钟 周期 数 。 
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在 双 发 射流 水 线 中 ， 需 要 同时 发 射 ALU 指令 和 load 或 store 指令 。 如 果 这 两 条 指令 存在 数据 
冒险 ， 则 load 或 store 指令 不 能 被 发 射 ， 相 当 于 ALU 指令 增加 了 一 个 周期 的 使 用 延迟 。 为 有 
效 挖掘 多 发 射 处 理 器 中 可 用 的 并 行 性 ， 需 要 使 用 更 高 级 的 编译 器 或 硬件 动态 调度 技术 ， 毅 态 
多 发 射 处 理 絮 对 编译 器 提出 了 更 高 的 要 求 。 



































图 4-66 ”静态 双 发 射 数据 通路 。 灰 色 部 分 是 为 静态 双 发 射 增加 的 数据 通路 ， 包 括 男 一 条 从 指 
令 存 储 中 取出 来 的 32 位 指令 ,以 及 新 添 的 寄存 器 堆 的 两 个 读 端口 和 一 个 写 端口 ， 
以 及 新 增 的 一 个 ALU。 新 增 的 ALU 用 来 进行 访 存 地 址 计算 ， 另 一 个 ALU 用 来 处 


理 其 他 指令 


| 例题 | 简单 的 多 发 射 代码 调度 
如 果 是 RISC-V 的 静态 双 发 射流 水 线 实现 ， 下 面 的 这 个 循环 体 应 该 如 何 调度 ? 


Loop: 1d X31; Q(X20) // x31l=array element 
ddd XL Xl, XZ2L Tadd Sealar irn X21 
sd X31 V(x20) // store result 
addi W220 = // decrement pointer 
Blt X22 Xd Loop YY/ comare, to loop Limit, 
A branceh if 0 > X22 





重新 排列 上 述 指令 ， 尽 可 能 避免 流水 线 。 假 设 分 支 是 可 以 被 预测 的 ， 也 就 是 控制 冒险 由 硬件 
解决 。 

| 答案 | 前 三 条 指令 具有 数据 相关 ， 因 此 重点 调度 后 两 条 。 图 4-67 中 给 出 了 该 指令 序列 的 最 
佳 调度 方案 。 注 意 ， 只 有 一 对 指令 占用 了 两 个 发 射 槽 。 每 次 循环 需要 花费 4 个 时 钟 周 期 ， 也 
就 是 4 个 时 钟 周期 完成 5 条 指令 的 执行 ，CPI 为 0.8 或 者 IPC 为 1.25。 理 论 上 ， 使 用 双 发 射 
技术 ，CPI 可 以 达到 0.5 或 者 IPC 为 2。 注意 ， 在 计算 CPI 或 者 IPC 时 ， 我 们 并 不 考虑 nop 
的 影响 。 这 样 做 只 是 为 了 CPI 的 计算 ， 对 性 能 没有 任何 帮助 。 





| ALU 或 branch 指 令 数据 传输 指令 





Loop: ld R31, O(x20) 


时 钟 周 期 
1 








| 
| addi x20, x20，-8 
| dd XSlL, wal, wl 











| Bilt X22, X20, Loop sd x31, 8(x20) 








2 
3 
4 





图 4-67 针对 RISC-V 双 发 射流 水 线 进行 调度 后 的 代码 。 空 发 射 槽 中 是 nop 指令 。 需 要 注 
意 的 是 ， 我 们 将 addi 指令 调度 在 sd 指令 之 前 执行 ， 因 此 需要 将 sd 指令 的 访 存 


地 址 重新 加 上 8 





循环 展开 (loop unrolling) 是 一 种 专门 针对 循环 体 提 高 程序 性 能 
的 重要 编译 技术 。 它 将 循环 体 展开 多 遍 ， 从 不 同 循环 中 寻找 可 以 重 
一 执行 的 指令 来 挖掘 更 多 的 指令 级 并 行 性 。 


循环 展开 : 一 种 针对 数组 
访问 循环 体 的 提高 程序 性 
能 的 技术 。 它 将 循环 体 展 
开 多 遍 ， 对 不 同 循环 内 的 
指令 进行 统一 调度 。 





| 例题 | 面向 多 发 射流 水 线 进行 循环 展开 


上 文 所 示 的 例子 中 ， 循 环 展 开 和 指令 调度 互相 配合 ， 可 提升 处 理 器 性 能 。 为 简化 起 见 ， 


假设 循环 间隔 为 4 的 倍数 。 


| 答案 | 为 实现 无 延迟 的 循环 操作 ， 我 们 需要 将 循环 体 展开 4 遍 。 展 开 后 还 需要 消除 不 必要 
的 循环 开销 ， 循 环 体内 将 包含 1d、add 和 sd 的 4 次 拷贝 ,再 加 上 一 条 addi 和 一 条 b1t。 


图 4-68 中 给 出 了 循环 展开 并 调度 后 的 代码 。 


| ALU 或 分 支 指令 数据 传输 指令 时 钟 周期 










5 人 29 人 9 文 CU ld X31, BB(X20) 














Bilt XE Xe Loetp sd x31;,, Gtx20y 


addi x20，x20，-32 1d x28, 0(x20) 
| 位 人 的) 


add Xx28，Xx28，x21 ld x30，16(x20) 


3 sd X29，24(x20) 


add nad XI N21 sy X28 32(x20) 
| 7 






图 4-68 针对 RISC-V 静态 双 发 射流 水 线 进行 循环 展开 和 调度 后 的 代码 。 空 指令 槽 中 的 是 
nop 指令 。 因 为 循环 体 的 第 一 条 指令 是 x20 减 去 32，load 指令 的 访 存 地 址 先 使 用 


x20 的 原 值 ， 然 后 是 地 址 减 8、 减 16 和 减 24 


在 循环 展开 的 过 程 中 ,编译 器 使 用 了 额外 的 寄存 器 (x28、x29 
和 x30)， 这 样 的 过 程 称 为 寄存 器 重 命 名 ( register renaming)。 寄 
存 器 重 命名 的 目标 是 ， 除 了 真 数据 相关 ， 消 除 指令 间 存 在 的 其 他 数 
据 相 关 。 这 些 数据 相关 将 会 导致 潜在 的 冒险 ， 或 者 妨碍 编译 器 进 
行 灵活 的 代码 调度 。 如 果 只 使 用 x31， 考 虑 展开 后 的 代码 将 会 如 
何 可 区 3 工 。 0tx20), add X31 X31 Xx2Z1l, 这 后 跟着 sd.X31， 
8(x20)， 这 样 的 指令 序列 不 断 重复 ， 除 了 都 使 用 x31， 这 些 指 令 实 
际 上 是 相互 独立 的 。 也 就 是 说 ,不 同 循环 的 指令 之 间 是 没有 数据 依 
赖 的 。 这 种 情况 称 为 反 相关 (antidependence) 或 名 字 相 关 ( name 


寄存 器 重 命名 : 编译 器 或 
硬件 对 寄存 器 进行 重 命 
名 ， 消 除 指令 序列 中 的 反 
相关 。 


反 相 关 : 也 称 为 名 字 相 关 ， 
由 于 名 字 复 用 (典型 的 就 
是 寄存 器 ) 被 迫 导 致 的 顺 
序 排 列 。 这 并 不 是 一 种 指 
令 间 真实 的 数据 相关 。 
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dependence)， 是 一 种 由 于 名 称 复 用 而 被 迫 导致 的 顺序 排列 ， 并 不 是 真正 的 数据 相关 《〈 即 真 
相关 )。 

在 循环 展开 时 对 寄存 器 进行 重 命 名 ， 可 以 允许 编译 器 移动 不 同 循环 中 的 指令 ， 以 更 好 地 
调度 代码 。 重 命名 的 过 程 可 以 消除 名 字 相 关 ， 但 不 能 消除 真相 关 。 

注意 ， 此 时 循环 体 中 的 14 条 指令 中 12 条 指令 是 可 以 成 对 执行 的 ，4 遍 循 环 花费 了 8 个 
时 钟 周期 ， 因 此 IPC 为 14/8=1.75。 对 于 4 遍 循 环 ， 之 前 需要 20 个 时 钟 周期 ， 现 在 只 需要 8 
个 时 钟 周 期 。 循 环 展开 和 指令 调度 配合 ， 流 水 线性 能 提高 2 倍 以 上 。 这 些 性 能 提升 一 部 分 来 
自 于 循环 控制 语句 的 减少 ， 一 部 分 来 自 于 双 发 射 执 行 。 代 价 是 使 用 了 4 个 而 非 1 个 临时 寄存 
器 ， 同 时 单个 循环 中 的 代码 长 度 也 增长 了 一 倍 以 上 。 人 


4.10.3 动态 多 发 射 处 理 器 


动态 多 发 射 处 理 器 也 称 为 超标 量 处 理 器 或 朴素 的 超标 量 处 理 器 。 | 超标 量 ， 一 种 高 级 流水 线 
在 最 简单 的 超标 量 处 理 器 中 ， 指 令 按 序 发 射 ， 由 硬件 来 判断 当前 周 | 技术 ， 指 处 理 器 能 够 在 动 
期 可 以 发 射 的 指令 数 ， 一 条 还 是 更 多 ， 或 者 停顿 发 射 。 显 然 ， 如 果 | 个 计生 
想 让 这 样 的 处 理 器 获得 更 好 的 性 能 ， 仍 然 需要 编译 器 进行 指令 调度 ，| ws， 
消除 掉 指 令 间 的 相关 ， 提 高 指令 的 发 射 率 。 不 过 ， 即 使 编译 器 配合 
进行 了 指令 调度 ， 在 这 个 简单 的 超标 量 处 理 器 和 超 长 指令 字 处 理 器 之 间 仍 然 存在 一 个 重要 的 
差别 ， 即 不 论 软 件 调度 与 否 ， 硬 件 必须 保证 代码 运行 的 正确 性 。 此 外 ， 编 译 生成 代码 的 运行 
正确 性 应 该 与 发 射 率 或 处 理 器 的 流水 线 结构 无 关 。 但 是 ， 在 一 些 超 长 指令 字 处 理 器 中 ,情况 
却 不 一 样 。 代 码 需要 重新 编译 才能 正确 运行 在 不 同 处 理 器 实现 上 。 还 有 一 些 静态 多 发 射 处 理 
器 ， 虽 然 代码 在 不 同 的 处 理 器 实现 上 应 该 能 运行 正确 ， 但 实际 情况 经 常会 比较 糟糕 ， 仍 然 可 
能 需要 编译 器 的 支持 。 

许多 超标 量 处 理 器 扩展 了 动态 发 射 馆 辑 的 基础 框架 ， 形 成 了 动 ”| 动态 流水 线 调 度 ， 指 一 种 
态 流 水 线 调度 技术 。 动 态 流 水 线 调度 技术 由 硬件 逻辑 选择 当前 周期 ”| 为 避免 停顿 流水 线 ， 对 指 
内 执行 的 指令 ， 并 尽量 避免 流水 线 的 冒险 和 停顿 。 我 们 使 用 一 个 简 | 令 执 行 顺 序 进行 重 排 的 而 
单 的 例子 来 说 明 它 是 如 何 避 免 数据 冒险 的 。 请 考虑 下 面 的 代码 序列 : | 个 装 相 。 


1d X81 O(aLY 
ad 测 ，” 邓 素 ; 沱 
sud X23 X23 XY 
andy XH Ed a 





即使 sub 指令 已 经 可 以 执行 ， 它 也 必须 等 待 1d 和 add 指令 先 完成 。 其 中 ld 指令 需要 
访 存 ， 可 能 会 花费 大 量 的 时 间 (第 5 章 中 会 解释 缓存 失效 ， 这 是 存储 访问 有 时 候 会 变 慢 的 重 
要 原因 )。 采 用 动态 流水 线 调度 技术 可 以 部 分 或 者 完全 避免 这 样 的 数据 冒险 。 

动态 调度 流水 线 

动态 调度 流水 线 由 硬件 选择 后 续 执 行 的 指令 ， 并 对 指令 进行 ”| 提交 单元 : 动态 调度 或 和 
重 排 来 避免 流 水 线 的 停顿 。 在 这 样 的 处 理 器 中 ， 流 水 线 被 分 成 三 个 | 序 执行 的 流水 线 中 判定 指 
主要 部 分 : 取 指 和 发 射 单元 、 多 功能 部 件 (在 2015 年 的 高 端 处 理 | 人 个 下 富安 的 六 能。 
器 设计 中 ， 功 能 部 件 的 数量 达到 十 几 个 甚至 更 多 ) 以 及 提交 单元 。 | 六 全 下 页 下风 六 和 全 
图 4-69 中 给 出 了 流水 线 模型 。 取 指 和 发 射 单元 负责 取 指 令 、 译 码 、 | 齐 储 器 。 
将 各 指令 发 送 到 相应 的 功能 单元 上 执行 。 每 一 个 功能 单元 前 都 有 若 


站 :于 洲 235. 


干 缓冲 区 ， 称 为 保留 站 。 保 留 站 中 存放 指令 的 操作 和 所 需 的 操作 数 。 | 保留 站 : 功能 部 件 前 的 组 
(在 下 一 节 中 ， 我们 将 讨论 保留 站 的 另 一 种 替代 选择 ， 这 种 方式 被 许 | 冲 区 ， 用 来 存放 指 今 的 操 
多 当今 主流 处 理 器 使 用 。) 只 要 缓冲 区 中 指令 所 需 操作 数 准备 好 ， 并 | 作 和 所 震 操作 数 。 

且 功 能 单元 就 绪 ， 就 可 以 执行 指令 。 一 旦 指令 执行 结束 ， 结 果 将 被 | 重大 库 级 站， 动态 调度 
传送 给 保留 站 中 正在 等 待 使 用 该 结果 的 指令 ， 同 时 也 传送 到 提交 单 “| 旭 器 中 用 来 保存 指令 执行 
元 中 进行 保存 。 提 交 单元 中 保存 了 已 完成 指令 的 执行 结果 ， 并 在 指 | 站 果 的 缓冲 区 。 一 旦 指令 
令 真 正 提交 时 才 使 用 它们 更 新 寄存 器 或 者 写 人 内 存 。 这 些 位 于 提交 | 确认 将 被 提交 ， 将 会 把 组 
单元 的 缓冲 区 ， 通 常 被 称 为 重 排序 缓冲 。 和 静态 调度 流水 线 中 的 前 | 俱全 
递 逻 辑 一 样 ， 重 排序 缓冲 也 可 以 用 来 为 其 他 指令 提供 操作 数 。 一 旦 

指令 提交 ， 寄 存 器 得 到 更 新 ， 就 和 正常 流水 线 一 样 直接 从 寄存 器 获取 最 新 的 数据 。 


取 指 和 译 码 单元 按 序 发 射 


乱 序 执行 


按 序 提交 





图 4-69 动态 调度 流水 线 的 三 个 主要 部 分 。 最 后 一 步 更 新 处 理 器 状态 的 阶段 也 被 称 为 提交 或 者 完成 


在 保留 站 中 保存 操作 数 ， 以 及 在 重 排序 缓冲 中 保存 运算 结果 ， 两 者 共同 提供 了 一 种 寄存 
器 重 命名 方式 ， 有 点 类 似 之 前 的 循环 展开 例子 中 编译 器 使 用 的 技术 。 要 了 解 这 个 概念 是 如 何 
工作 的 ， 考 虑 以 下 步 又 : 

1. 发 射 指令 时 ， 指 令 会 被 拷贝 到 相应 功能 单元 的 保留 站 中 。 同 时 ， 如 果 指 令 所 需 的 操作 
数 已 准备 好 ， 也 会 从 寄存 器 堆 或 者 重 排序 缓冲 中 拷贝 到 保留 站 中 。 指 令 会 一 直 保存 在 保留 站 
中 ， 直 到 所 需 的 操作 数 全 部 准备 好 ， 并 且 相应 功能 部 件 可 用 。 对 于 处 在 发 射 阶段 的 指令 ,由 
于 可 用 操作 数 已 被 拷贝 至 保留 站 中 ， 它 们 在 寄存 器 堆 中 的 副本 就 无 须 保存 了 ， 如 果 出 现 相 应 
寄存 器 的 写 操作 ， 那 么 该 寄存 器 中 的 数值 将 被 更 新 。 

2. 如 果 操 作 数 不 在 寄存 器 堆 或 者 重 排序 缓冲 中 ， 那 它 一 定 在 等 待 某 个 功能 单元 的 计算 结 
果 。 该 功能 单元 的 名 字 将 被 记录 。 当 最 终结 果 计 算 完毕 ， 将 会 直接 从 功能 单元 拷贝 到 等 待 该 
结果 的 保留 站 中 ， 旁 路 了 寄存 器 堆 。 

这 些 步 又 充分 利用 了 重 排 序 缓冲 和 保留 站 来 实现 寄存 器 重 命名 。 | 乱 序 执行 流水 线 处 理 器 

从 概念 上 讲 ， 可 以 把 动态 调度 流水 线 看 作 程序 的 数据 流 结构 分 | 执行 过 程 中 的 一 种 情况 ， 
析 。 处 理 器 在 不 违背 程序 原 有 的 数据 流 顺序 的 前 提 下 以 某 种 顺序 执 人 
行 指令 ， 被 称 为 乱 序 执行 。 这 是 因为 这 样 执行 的 指令 顺序 和 取 指 的 “| 往 信 的 等 和 
顺序 是 不 同 的 。 


为 使 得 程序 行为 与 简单 的 按 序 单 发 射流 水 线 一 致 ， 乱 序 执行 流 “| 按 序 提交 ;流水线 处 理 器 
水 线 的 取 指 和 译 码 都 需要 按 序 进行 ， 以 便 正确 处 理 指令 间 的 相关 。 | 的 一 种 提交 方式 。 指 的 是 
同样 ， 提 交 阶 段 也 需要 按照 取 指 的 顺序 依次 将 指令 执行 的 结果 写 人 | 信人 
寄存 器 和 存储 中 。 这 种 保守 的 处 理 方法 称 为 按 序 提交 。 如 果 发 生 例 

外 ， 处 理 器 很 容易 就 能 找到 例外 前 的 最 后 一 条 指令 ， 也 会 保证 只 更 新 在 此 之 前 的 指令 需要 改 
写 的 寄存 器 。 虽 然 流 水 线 的 前 端 ( 取 指 和 译 码 阶段 ) 和 后 端 (提交 阶段 ) 都 是 按 序 执行 ， 但 
是 功能 部 件 是 允许 乱 序 执行 的 。 任 何 时 候 只 要 所 需 数据 准备 好 ， 指 令 就 可 以 被 发 射 到 功能 部 
件 上 开始 执行 。 目 前 ， 所 有 动态 调度 的 流水 线 都 是 按 序 提交 的 。 

更 为 高 级 的 动态 调度 技术 还 包括 基于 硬件 的 推测 式 执行 ,特别 是 基于 分 支 预测 。 通 过 预 
测 分 支 指令 的 转移 方向 ， 动 态 调度 处 理 器 能 够 沿 着 预测 路 径 不 间断 地 取 指 和 执行 指令 。 由 于 
指令 是 按 序 提交 的 ， 在 预测 路 径 上 的 指令 提交 之 前 就 已 经 知道 分 支 指令 是 否 预测 成 功 。 支 持 
推测 执行 的 动态 调度 流水 线 还 可 以 支持 load 指令 访 存 地 址 的 推测 。 这 将 允许 乱 序 执行 load- 
store 指令 ， 并 使 用 提交 单元 来 避免 不 正确 的 推测 。 在 下 一 节 中 ， 我 们 将 介绍 在 Intel Core i7 
设计 中 的 动态 调度 和 推测 式 执行 技术 。 

畏 巴 各 鹿 壬 扔 | 玩 然 编译 器 也 能 进行 指令 调度 来 解决 数据 相关 ， 读 者 可 能 会 问 为 什么 超 
标量 处 理 器 还 项 要 使 用 动态 调度 技术 。 这 主要 有 三 个 原因 。 首先 ， 不 是 所 有 的 流水 线 停顿 都 
是 可 预测 的 。 特 别 是 ， 才 也 洲 彝 中 的 缓存 失效 就 能 引起 流水 线 中 不 可 预测 的 停顿 (具体 见 第 
5 章 )。 动 态 调度 允许 处 理 器 通过 执行 其 他 指令 来 隐藏 这 些 停顿 。 

其 次 ， 如 果 处 理 器 中 使 用 动态 分 支 匡 测 技术 来 推测 分 支 指令 的 执行 结果 ， 我 们 在 编译 
程序 时 是 无 法 知道 指令 的 真实 执行 顺序 的 ， 这 依赖 于 分 支 指令 的 预测 结果 和 执行 结果 。 仅 仅 
使 用 推测 式 执行 技术 去 挖掘 程序 的 指令 级 并 行 性 ， 而 不 与 动态 调度 相 结合 ， 这 显然 会 影响 推 
测 式 执行 的 效果 。 

最 后 ， 不同 的 流水 线 实现 具有 不 同 的 延迟 和 发 射 宽 度 ， 这 会 改变 编译 代码 的 最 佳 配 置 。 
例如 ， 对 具有 相关 的 指令 序列 如 何 进行 调度 受到 流水 线 的 发 射 宽 度 和 延 避 的 双重 影响 。 流 水 
线 结构 也 会 影响 为 了 避免 停顿 而 展开 的 循环 体 遍 数 ， 也 就 影响 了 基于 编译 器 的 寄存 器 重 命名 
过 程 。 而 动态 调度 技术 可 以 隐藏 以 上 大 多 数 硬件 细节 。 因 此 ， 用 户 和 软件 发 行商 无 须 担 心 为 
相同 指令 系统 的 不 同 实现 维护 多 个 程序 版 本 。 类 似 的 ， 之 前 的 旧 代 码 也 可 以 不 用 重新 编译 就 
运行 在 新 的 硬件 实现 上 ， 从 中 获得 更 多 的 好 处 。 

| 呈现 和 多 发 射 技术 尝试 挖掘 程序 的 指令 级 国电 鞋 ， 扣 高 了 指令 执行 的 峰值 天 
吐 率 。 但 是 ， 由 于 处 理 器 总 是 需要 等 待 冒险 的 解决 ， 因 此 程序 中 的 数据 和 控制 相关 限制 了 性 
能 的 可 达 上 限 。 以 软件 为 中 心 的 指令 级 并 行 开发 技术 依靠 编译 器 来 寻找 这 些 依赖 关系 ， 并 减 
少 它们 带 来 的 不 良 影响 。 而 以 硬件 为 中 心 的 指令 级 并 行 开发 技术 依赖 于 流水 线 结构 和 指令 发 
射 机 制 的 扩展 。 不 管 是 基于 编译 器 还 是 硬件 ， 推 测 式 执行 都 能 通过 项 测 提高 指令 级 并 行 度 。 
不 过 ， 由 于 推测 错误 很 可 能 会 降低 性 能 ， 使 用 时 需要 小 心 。 

| 硕大 语 R 伞 搂 国 现代 高 性 能 处 理 器 能 够 单 周 期 发 射 多 条 指令 ， 但 是 一 直 保持 高 发 射 率 
是 困难 的 。 例如， 尽管 存在 四 发 射 或 者 六 发 射 的 处 理 器 ， 但 很 少 有 应 用 可 以 一 直 保 持 两 条 以 
上 的 发 射 率 。 这 主要 是 由 以 下 两 个 原因 造成 的 。 

首先 ， 在 流水 线 内 部 ， 主 要 的 性 能 瓶颈 在 于 指令 之 间 的 依赖 关系 。 这 种 依赖 关系 无 法 消 
除 ， 降 低 了 指令 间 的 并 行 性 ， 也 降低 了 流水 线 的 发 射 率 。 对 于 真正 的 数据 相关 ， 我 们 确实 无 
能 为 力 。 但 是 ， 有 时 候 却 是 由 于 编译 器 或 者 硬件 的 能 力 有 限 ， 并 不 能 准确 知道 这 种 数据 相关 
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是 否 存 在 ， 因 此 不 得 不 先 保守 地 假设 指令 序列 中 存在 真 数据 相关 。 例 如 ， 程 序 的 代码 中 常 使 
用 指针 ， 这 种 数据 结构 特别 容易 产生 存储 器 别名 ,这 会 导致 潜在 的 数据 相关 。 相 反 ， 对 于 数 
组 访问 ， 由 于 有 更 强 的 规律 性 ， 编 译 器 可 以 直接 判断 出 指令 之 间 不 存在 依赖 关系 。 同 样 ， 
于 分 支 指令 来 说 ， 那 些 无 法 在 运行 或 者 编译 时 准确 预测 出 跳 转 方向 的 分 支 指令 ， 将 会 对 深 
挖掘 流水 线 中 的 指令 级 并 行 能 力 产生 不 良 影响 。 通 常 ， 指 令 级 并 行 ge 
那些 影响 性 能 的 因素 分 布 非常 广泛 (有 时 是 在 成 千 上 万 条 指令 的 执行 中 )， 编 译 器 和 硬件 就 显 
得 能 力 不 足 了 。 

其 次 ， 国 贸 尾 吹 ( 详 见 第 5 章 ) 中 的 各 级 失效 会 使 得 流水 线 不 能 满 负 荷 运转 。 虽 然 通过 
流水 线 的 指令 调度 可 以 隐藏 基 些 存储 系统 的 延迟 ， 但 是 ， 程 序 中 有 限 的 指令 级 并 行 会 限制 可 
被 调度 的 指令 数量 ， 从 而 使 得 隐藏 延迟 的 能 力 受 限 。 


4.10.4 高 级 流水 线 和 能 效 


通过 动态 多 发 射 和 推测 式 执行 深度 挖掘 指令 级 并 行 能 力也 会 带 来 负面 影响 ， 其 中 最 重要 
的 就 是 降低 了 处 理 器 的 能 效 。 每 一 个 技术 上 的 创新 都 可 能 会 产生 新 的 结构 ， 使 用 更 多 的 晶体 
管 来 获取 更 高 的 性 能 。 但 是 这 种 做 法 可 能 很 低 效 。 目 前 ， 我 们 已 经 撞 上 了 功 耗 墙 ， 因 此 转向 
设计 单 芯 片 多 处 理 器 架构 ， 这 样 就 无 须 像 之 前 那样 设计 更 深 的 流水 线 或 者 采用 更 激进 的 推测 
机 制 。 

我 们 都 相信 ， 虽 然 简单 处 理 器 运行 速度 不 如 复杂 处 理 器 ， 但 是 相同 的 性 能 下 它们 的 能 耗 
更 低 。 因 此 ， 当 结构 设计 受 限 于 能 量 而 非 晶体 管 数量 时 ， 简 单 处 理 吉 能够 在 单 芯片 上 获得 更 
高 的 性 能 。 

图 4-70 中 给 出 了 Intel 系列 处 理 器 的 参数 比较 ， 包 括 流水 线 级 数 、 发 射 宽度 、 推 测 策 
略 、 时 钟 频率 、 单 蕊 片上 的 核心 数目 以 及 功 耗 等 。 特 别 需要 注意 的 是 ， 从 单 核 设计 转向 多 核 
设计 后 ， 流 水 线 级 数 和 功 耗 都 有 明显 的 下 降 。 















































乱 序 /推测 
Intel 486 1989 25 MHz 否 | 1 | sw 
Intel Pentium | 1993 66 MHz 5 2 否 1 10W 
Intel Pentium Pro | 1997 | 200MHz 10 | 天 1 29W 
Intel Pentium 4 Willamette| 2001 | 2000 MHz 2 是 1 75W 
Intel Pentium 4 Prescott | 2004 | 3600 MHz 31 3 是 1 | 103W 
Intel Core 2006 | 2930 MHz 14 4 是 2 75W 
Intel Core i5 Nehalem 2010 3300 MHz | 14 | 4 是 A 87W 
Intel Core i5 lvy Bridge 2012 3400 MHz 14 4 是 8 77W 


























图 4-70 Intel 系列 处 理 器 参数 比较 ， 包 括 流水 线 复杂 度 、 核 数 和 功 耗 。 其 中 ， 奔 腾 4 的 流 
水 线 级 数 不 包括 提交 阶段 。 如 果 把 它 考虑 进来 ， 奔 腾 4 的 流水 级 数 将 会 更 深 


开国 迅 | 提交 单元 控制 了 寄存 器 堆 和 存储 器 的 更 新 。 一 类 动态 调度 处 理 器 在 执行 期 间 
就 更 新 寄存 器 堆 ， 使 用 额外 的 寄存 器 实现 重 命名 功能 ， 并 保存 寄存 器 旧 值 直到 指令 提交 。 其 
他 处 理 器 则 将 执行 结果 保存 在 上 文 提 到 的 重 排序 缓冲 中 ， 并 在 提交 阶段 才 真 正 更 新 寄存 器 
堆 。 对 于 存储 器 的 写 操作 ， 必 须 保存 在 重 排序 缓冲 中 ， 或 者 写 入 缓冲 区 (store buffer) 中 ( 详 
见 第 5 章 )。 当 缓冲 区 中 的 地 址 和 数据 都 准备 好 ， 并 且 store 指令 不 在 任何 推测 路 径 上 时 ， 提 
交 单 元 允许 store 指令 向 存储 器 发 出 写 操作 。 


[详细 阐 述 存储 器 访问 还 可 以 采用 非 阻塞 高 速 缓存 ( nonblocking cache ) 。 
缓存 失效 时 继续 提供 缓存 访问 服务 ( 详 见 第 ,5 章 )。 


继续 执行 指令 


ee 
自我 检测 A th Rs 对 某 些 项 
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实例 : 
图 4-71 中 是 本 节 要 讨论 的 两 个 微 处 理 器 ， 它 们 是 后 PC 时 代 两 个 具有 代表 性 的 结构 。 


处 理 器 ARM A53 Intel Core i7 920 














ARM Cortex-A53 和 Intel Core i7 流水 线 结 构 





















































市 场 个 人 移动 设备 服务 器 ， 云 计算 
设计 功 耗 100mW ( 单 核 频 率 1GHz ) 130W 

时 钟 频 率 1.5GHz 2.66GHz 

单 芯 片 核 数 4 ( 可 配置 ) 4 

是 否 有 浮 点 ? 有 有 

多 发 射 ? 动态 动态 
峰值 IPC 2 4 

流水 线 级 数 8 14 
流水 线 调 度 静态 按 序 动态 乱 序 + 推测 式 执行 
分 支 预 测 混合 2 级 
Wir cone | eens, 人 Ee 
单 核 内 L2 Cache 共享 ，128 一 2048KB 每 个 核 256KB 
共享 L3 Cache 由 平台 决定 2 一 8MB 





图 4-71 


4.11.1 


ARM Cortex-A53 和 Intel Core i7 920 的 技术 参数 


ARM Cortex-A53 


该 结构 支持 在 
乱 序 执行 处 理 器 需要 在 发 生 缓存 失效 时 





ARM Cortex-A53 是 一 款 基 于 ARMv8 指令 系统 的 八 级 流水 线 结构 处 理 器 ， 主 频 为 
1.5SGHz。 该 处 理 器 采用 动态 多 发 射 技术 ， 每 周期 发 射 两 条 指令 ; 采用 静态 按 序 流水 线 ， 指 令 
按 序 发 射 、 按 序 执行 、 按 序 提交 。 流 水 线 分 为 三 个 部 分 : 取 指 、 译 码 和 执行 。 图 4-72 显示 
其 完整 的 流水 线 结构 。 

流水 线 的 前 三 级 每 周期 取 两 条 指令 ， 尽 可 能 保持 指令 队列 中 有 足够 多 的 指令 
Cortex-A53 采用 6kb 大 小 的 混合 条 件 分 支 预测 器 、256 表 项 的 间接 转移 预测 器 以 及 一 个 用 来 
预测 函数 返回 地 址 的 8 表 项 返回 地 址 栈 。 间 接 转移 预测 需要 占用 额外 的 一 个 流水 级 。 如 果 无 
法 使 用 指令 队列 对 取 指 阶段 和 译 码 、 执 行 阶段 解 耦合 的 话 ， 这 样 的 设计 选择 将 会 带 来 额外 的 
性 能 开销 。 特 别 是 在 分 支 预测 错误 或 者 指令 缓存 失效 的 情况 下 ， 分 支 预测 错误 使 得 流水 线 被 
清空 ， 这 将 导致 8 个 时 钟 周 期 的 性 能 开销 。 
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图 4-72 ”Cortex-A53 流水 线 结构 。 前 三 级 流水 线 将 指令 取 到 表 项 数 为 13 的 指令 队列 中 。 地 
址 产生 单元 (AGU) 使 用 混合 预测 器 、 间 接 转移 预测 器 和 返回 栈 对 各 类 分 支 转移 指 
令 进 行 预测 ， 保 持 指令 队列 中 有 足够 多 的 指令 。 指 令 译 码 和 执行 分 别 占用 了 三 级 流 
水 线 ， 浮 点 和 SIMD 操作 则 占用 了 五 级 流水 线 


流水 线 的 译 码 阶段 用 来 判断 “指令 对 ”内 部 是 否 存在 依赖 关系 ， 并 决定 指令 将 被 发 送 到 
哪 类 功能 部 件 上 。 这 种 依赖 关系 可 能 导致 “指令 对 ”内 部 顺序 执行 。 

指令 执行 阶段 占用 了 三 个 流水 级 。Cortex-A53 为 load 和 store 指令 分 别提 供 单 独 的 执行 
流水 线 ， 为 定点 算术 指令 提供 两 条 执行 流水 线 ， 为 定点 乘法 和 除法 操作 分 别提 供 单独 的 执行 
流水 线 。“ 指 令 对 ”中 的 任意 一 条 指令 都 可 以 发 射 到 load 或 者 store 流水 线 中 。 执 行 阶段 的 不 
同 流水 线 之 间 具 有 全 旁 路 机 制 。 

为 实现 浮 点 和 SIMD 指令 ， 在 指令 的 执行 阶段 增加 两 个 流水 级 。 使 用 其 中 一 级 实现 浮 点 
的 乘法 / 除法 / 开 方 操作 ， 另 一 流水 级 实现 浮 点 的 其 他 算术 操作 。 

图 4-73 给 出 了 Cortex-A53 上 运行 SPEC2006 测试 程序 的 CPI。 理 想 CPI 为 0.5， 实 际 上 
最 小 CPI 达 到 了 1.0， 平 均 CPI 为 1.3， 最 坏 情况 为 8.6。 在 一 般 情 况 下 ，60% 的 停顿 都 是 由 
于 流水 线 中 的 冒险 引起 的 ， 另 外 40% 是 由 于 存储 访问 造成 的 。 流 水 线 停顿 可 能 是 由 于 分 支 
预测 错误 、 结 构 冒 险 以 及 指令 对 之 间 的 数据 相关 造成 的 。ARM Cortex-A53 使 用 静态 调度 的 
流水 线 结构 ， 想 要 避免 结构 冒险 和 数据 相关 只 能 依靠 编译 器 。 

| 织 锚 曾 壕 ! Cortex-A53 是 一 款 支 持 ARMv8 指令 系统 体系 结构 的 可 配置 处 理 器 核 ， 它 
以 IP (JIntellectual Property， 知 识 产 权 ) 核 方式 交付 使 用 。 了 JP 核 是 一 种 用 于 交付 的 主要 模式 ， 
被 广泛 运用 在 嵌入 式 、 个 人 移动 设备 以 及 其 他 相关 方向 的 市 场 上 。 数 以 十 亿 计 的 ARM 和 
MIPS 处 理 器 就 是 从 这 些 IP 核 中 衍生 出 来 的 。 

注意 ， 上 述 的 处 理 器 IP 核 与 Intel Core i7 多 核 计 算 机 上 的 处 理 器 核 不 尽 相 同 。 处 理 器 
IP 核 (本 身 可 能 就 是 个 多 核 ) 需要 与 其 他 逻辑 协同 设计 (因为 它 是 整个 芯片 的 核心 )， 并 共 
同 生产 出 一 款 针对 特定 应 用 进行 优化 的 微 处 理 器 芒 片 。 这 里 的 其 他 逻辑 包括 特定 应 用 处 理 器 
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(比如 视频 编码 器 或 者 解码 器 )、1/O 接口 和 存储 控制 器 。 虽 然 处 理 器 核 的 逻辑 结构 是 确定 的 ， 
但 是 最 终 的 芯片 实现 却 千差万别 。 例 如 ， 对 于 L2 Cache 的 容量 可 以 有 16 倍 的 差别 。 










田 访 存 引 起 的 流水 线 停顿 
回流 水 线 停 顿 
量 理想 CPI 
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图 4-73 ARM Cortex-A53 上 运行 SPEC2006 定点 测试 程序 的 CPI 
4.11.2 Intel Core i7 920 


x86 微 处 理 器 采用 了 大 量 复杂 的 流水 线 技 术 ， 包 括 动态 多 发 射 、 动 态 流水 线 调度 、 乱 序 
执行 以 及 流水 线 的 推测 式 执行 。 但 是 ， 这 些 处 理 器 仍然 需要 面 对 挑战 ， 实 现 复杂 的 x86 指令 
系统 (如 第 2 章 中 所 述 ) 。Intel 处 理 器 按照 x86 指令 格式 进行 取 指 ， 并 将 它们 转换 成 内 部 的 
类 似 RISC-V 风格 的 指令 ，Intel 称 之 为 微 操 作 (micro-operation)。 之 后 ， 指 令 以 微 操 作 的 形 
式 在 上 述 复杂 流水 线 中 执行 、 动 态 调度 并 推测 ， 保 持 着 每 周期 6 条 微 操作 以 上 的 执行 效率 。 
本 节 我 们 将 重点 考虑 微 操作 流水 线 。 

当 我 们 考虑 设计 这 样 的 处 理 器 时 ， 功 能 单元 的 设计 、 高 速 缓存 “| 微 结构 ， 处理 器 的 组 织 结 
和 寄存 器 堆 的 设计 、 指 令 发 射 以 及 整个 流水 线 控制 的 设计 ， 各 种 因 | 构 ， 包 括 主要 功能 部 件 、 
素 混合 在 一 起 ， 这 使 得 数据 通路 很 难 从 流水 线 中 分 离 出 来 。 因 此 ， i 
很 多 工程 师 和 研究 者 采用 了 微 结构 ( microarchitecture) 这 一 术语 来 
指 代 处 理 器 内 部 详细 的 体系 结构 。 

Intel Core i7 使 用 重 排序 缓冲 结合 寄存 器 重 命名 机 制 来 解决 指 | 体系 结构 寄存 器 : 处理 器 
令 中 存在 的 反 相 关 和 推测 错误 。 寄 存 器 重 命名 技术 显 式 地 将 处 理 器 “| 指令 系统 中 的 可 见 寄存 
中 的 体系 结构 寄存 器 ( x86 的 64 位 指令 系统 中 ， 体 系 结构 寄存 器 数 ae pg 
目 是 16 ) 通过 换 名 技术 映射 到 一 个 更 大 的 物理 寄存 器 集合 上 。Intel | ;ss 生存， 
Core i7 处 理 器 使 用 重 命名 技术 来 解决 数据 间 的 反 相 关 。 寄 存 器 重 命 
名 技术 需要 处 理 器 来 维护 体系 结构 寄存 器 与 物理 寄存 器 之 间 的 映射 关系 ， 这 种 映射 关系 保存 
了 每 个 体系 结构 寄存 器 最 新 映射 到 的 物理 寄存 器 编号 。 通 过 跟踪 已 经 发 生 的 重 命名 ， 寄 存 器 
重 命名 技术 提供 了 另 一 种 推测 错误 时 的 流水 线 恢 复方 法 : 从 错误 的 推测 路 径 上 的 第 一 条 指令 
开始 ， 撤 销 后 续 所 有 的 寄存 器 映射 操作 。 这 个 撤销 操作 将 会 使 处 理 器 状态 恢复 到 指令 正确 执 
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行 时 的 最 终 状 态 ， 并 保持 体系 结构 寄存 器 和 物理 寄存 器 之 间 的 正确 映射 关系 。 
4-74 显示 了 Intel Core i7 的 整个 组 织 结 构 和 流水 线 结构 。 下 面 是 x86 指令 在 该 流水 线 
上 执行 的 8 个 阶段 。 





图 4-74 ”Intel Core i7 流水 线 和 访 存 部 件 。 整 个 流水 线 深度 为 14 级 ， 分 支 预测 错误 的 开销 为 
17 个 时 钟 周 期 。 该 设计 能 够 缓存 48 条 load 指令 和 32 条 store 指令 ， 具 有 6 个 独立 
的 功能 单元 ， 每 周期 可 以 执行 6 个 微 操作 





1. 取 指 一 一 处 理 器 采用 了 多 层次 分 支 目 标 缓存 结构 ， 以 此 来 平衡 分 支 预测 正确 率 和 处 理 
器 频率 之 间 的 关系 。 还 有 一 个 返回 地 址 栈 (RAS) 用 来 加 速 函 数 调用 的 返回 。 预 测 错误 会 引 
起 大 约 15 个 时 钟 周期 的 性 能 开销 。 使 用 了 预测 产生 的 地 址 ， 取 指 单元 可 保证 从 指令 缓存 中 
每 周期 取出 16 字 节 的 指令 。 

2. 这 16 个 字 节 的 指令 将 放 入 预 译 码 指 令 缓冲 中 一 一 在 预 译 码 阶段 ， 将 把 这 16 字 节 的 指 
令 转 换 成 单个 的 x86 指令 。 由 于 x86 指令 是 变 长 的 ， 从 1 到 15 个 字 节 都 有 可 能 ， 因 此 预 译 
码 阶 段 必须 扫描 多 个 字 节 以 确定 指令 的 长 度 。 预 译 码 后 的 单个 x86 指令 放 入 18 个 表 项 的 指 
令 队 列 中 。 

3. 微 操作 译 码 一 一 单条 x86 指令 将 被 转换 成 微 操 作 ，Intel Core i7 使 用 三 个 译 码 器 进行 
直接 转换 。 对 于 语义 复杂 的 x86 指令 ， 使 用 微 码 引 警 产生 对 应 的 微 操 作 序 列 ， 该 引擎 能 连续 
每 周期 产生 4 个 以 上 的 微 操 作 。 这 些微 操作 按照 x86 的 指令 顺序 存放 在 28 表 项 的 微 操作 组 
冲 中 。 
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4. 在 微 操作 缓冲 中 进行 循环 流 检测 一 一 循环 流 检测 可 以 在 具有 循环 体 的 动态 指令 序列 
( 少 于 28 条 指令 或 者 指令 长 度 小 于 256 字 节 ) 中 发 现 循 环 ， 并 直接 从 微 操 作 缓 冲 中 发 射 后 续 
操作 ， 无 须 启 动 取 指 和 译 码 。 

5. 进行 基本 指令 发 射 一 一 在 寄存 器 表 中 查找 寄存 器 位 置 ， 对 寄存 器 进行 重 命名 ， 为 指令 在 
重 排序 缓冲 中 分 配 表 项 ， 将 微 操作 发 送 到 保留 站 中 ， 并 从 寄存 器 堆 或 重 排序 缓冲 中 取出 操作 数 。 

6. Intel Core i7 采用 36 表 项 的 集中 式 保留 站 ， 由 6 个 功能 部 件 共 享 。 每 周期 将 分 发 6 个 
以 上 的 微 操 作 到 不 同 的 功能 部 件 上 。 

7. 单个 功能 部 件 执行 对 应 的 微 操 作 ， 并 把 执行 结果 送 回 到 等 待 该 数据 的 保留 站 和 寄存 器 
提交 单元 。 一 旦 指令 不 在 任何 推测 路 径 上 就 及 时 更 新 相关 寄存 器 的 状态 ， 并 将 该 指令 在 重 排 
序 缓冲 中 的 相应 状态 标注 为 “完成 ”。 

8. 当 一 条 或 多 条 被 标注 为 “完成 ”的 指令 到 达 重 排序 缓冲 的 顶端 ， 寄 存 器 提交 单元 执行 
真正 的 写 操作 ， 指 令 将 从 重 排序 缓冲 中 移 除 。 

| 详细 阐述 上 述 第 2 阶段 和 第 4 eed dtd 以 此 来 减少 执行 的 
操作 数量 。 第 2 阶段 中 的 宏 操作 (macro-ops) 合并 是 对 x86 指令 进行 组 合 。 例 如 ， 比 较 指 令 
的 后 面 跟着 分 支 指令 ， 可 以 将 其 变 为 一 个 操作 。 第 4 阶段 的 微 操作 合并 Ve 是 对 
load+ALU 和 ALU+store 这 样 的 “ 微 操 作对 ”进行 组 合 ， 并 发 射 到 一 个 保留 站 中 (在 这 里 它 
们 可 以 被 独立 发 射 )， 以 提高 微 操作 缓冲 的 使 用 率 。 在 对 Intel Core 架构 中 的 微 操作 合并 和 宏 
操作 合并 的 研究 中 ，Bird 等 人 [2007] 发 现 微 操作 合并 对 性 能 几乎 没有 影响 ， 宏 操作 合并 对 定 
点 测试 程序 的 性 能 有 一 定 提升 ， 但 对 浮 点 测试 程序 的 性 能 几乎 没有 影响 。 


4.11.3 Intel Core i7 处 理 器 的 性 能 


图 4-75 显示 了 Intel Core i7 处 理 器 运行 SPEC2006 测试 程序 的 CPI。 理 想 CPI 为 0.25， 
事实 上 最 小 CPI 为 0.44, 平均 CPI 为 0.79， 最 大 为 2.67。 








图 4-75 ”Intel Core i7 920 处 理 器 运行 SPEC2006 测试 程序 的 CPI 


在 一 个 动态 乱 序 执行 的 流水 线 中 ， 虽 然 很 难 区 分 开 流 水 线 阻 塞 和 访 存 阻 塞 ， 但 我 们 可 以 
展示 分 支 预测 和 推测 执行 的 效果 。 图 4-76 显示 了 分 支 预测 错误 所 占 的 百分比 ， 以 及 未 提交 
的 微 操 作 数 〈( 即 执行 结果 被 置 为 无 效 的 操作 ) 占 已 分 发 的 微 操作 总 数 的 百分比 。 分 支 预 测 错 
误 的 最 小 值 、 平 均值 和 最 大 值 分 别 为 0%、2%、10%。 对 于 无 效 操作 来 说 ， 最 小 值 、 平 均值 
和 最 大 值 分 别 为 1%、18% 和 39%。 


中 分 支 预测 错误 占 比 % 如 无 效 操作 占 比 % 
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图 4-76 ”Intel Core i7 920 处 理 器 运行 SPEC2006 测试 程序 时 ， 分 支 预测 错误 率 和 无 效 操作 比例 


在 某 些 情况 下 ， 无 效 操作 的 比例 接近 于 分 支 预测 错误 率 ， 比 如 测试 程序 gobmk 和 astar。 
在 一 些 实例 中 ， 例 如 mef 中， 无 效 操作 所 占 比 例 比 分 支 预测 错 误 率 要 高 。 区 别 可 能 就 在 于 访 
存 行为 。 由 于 数据 缓存 失效 率 很 高 ，mcf 程序 在 推测 错误 和 拥有 充足 保留 站 的 情况 下 分 发 了 
大 量 的 指令 。 如 果 分 支 指令 最 终 预 测 错误 ， 与 此 相关 的 所 有 指令 的 微 操作 都 将 被 清除 。 

| 三 萎 程 序 必 能 | Intel Core i7 将 14 级 流水 线 与 激进 的 多 发 射 技术 相 结合 以 获取 更 高 的 性 
能 。 通 过 保持 背靠背 ( back-to-back) 操作 的 低 延迟 ， 数 据 相关 的 影响 将 被 减 小 。 对 于 运行 在 
该 款 处 理 器 上 的 程序 来 说 ， 哪 些 才 是 潜在 的 影响 性 能 的 瓶颈 呢 ? 下 述 列表 包括 了 一 些 可 能 的 
性 能 问题 ， 最 后 三 个 问题 会 在 任何 高 性 能 流水 线 处 理 器 中 以 某 种 形式 出 现 。 

@ 采用 x86 指令 ， 并 且 不 映射 到 简单 的 微 操作 上 。 

e。 很 难 预测 的 分 支 ， 会 引起 预测 错误 时 的 流水 线 停顿 ， 以 及 推测 失败 后 的 流水 线 重启 。 

e@ 长 相关 一 一 典型 的 长 延迟 指令 或 者 存储 层次 引起 的 流水 线 停顿 。 

e@ 存储 访问 延迟 增 大 (具体 见 第 5 章 ) 引起 的 处 理 器 停顿 。 


4.12 ”加 速 : 指令 级 并 行 和 和 矩阵 乘法 

以 第 3 章 中 提 到 的 DGEMM 为 例 ， 多 发 射 和 乱 序 执行 处 理 器 通过 循环 展开 可 以 获得 更 
多 可 供 调度 的 指令 ， 这 体现 出 指令 级 并 行 技术 的 影响 。 图 4-77 给 出 了 图 3-22 中 的 C 程序 进 
行 循环 展开 后 的 版 本 。 该 版 本 利用 C 程序 的 内 在 特征 来 生成 对 应 的 AVX 指令 。 

和 图 4-68 中 的 循环 展开 示例 一 样 ， 对 以 上 程序 循环 展开 四 次 。 与 之 前 不 同 ， 图 3-22 的 
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示例 中 手动 将 循环 体 中 的 每 条 语句 复制 四 次 ， 本 次 使 用 gcc 编译 器 中 的 -03 编译 优化 选项 完 
成 循环 展开 。( 在 C 代码 中 使 用 常数 UNROLL 来 控制 循环 展开 的 次 数 ， 以 便于 进行 不 同 数值 
的 尝试 。) 使 用 一 个 简单 的 4 次 迭代 循环 体 (具体 见 第 9、15 和 20 行 )， 并 使 用 一 个 包含 4 个 
元 素 的 数组 c[ ] 来 代替 原来 的 标量 C0 (具体 见 第 8、10、16 和 21 行 )。 


1 //include <x86intrin.h> 
2 //define UNROLL (4) 


void dgemm (int n, double* A, double* B, double* C) 
{ 


for ( int i = 0; i < n; i+=UNROLL*4 ) 
tow te Th 3 = Oe my tt 
_m256d c[4]; 
for ( int x = 0 x < UNROLL: x++ ) 
c[x] = _mm256_load_pd(C+i+x*4+j*n); 


fort int k= Os kk mM Ktt ) 
{ 


_m256d b = _mm256_broadcast_sd(B+k+j*n); 
fo Chit X= Os KC UNROLES ER 
c[x] = _mm256_add_pd(c[x], 
_mm256_mul_pd(_mm256_1load_pd(At+n*k+x*4+i), b)); 
} 


for ( 10b = 0 KX < UNROLLS XtF 3 
_MmmMm256_store_ pd(C+i+x*4+j*n, c[x]); 
} 





图 4-77 DGEMM (图 3-22 ) 优化 后 的 C 程序 版 本 。 使 用 C 程序 的 内 在 特征 产生 x86 指令 
系统 中 的 AVX 扩展 指令 ( 子 字 并 行 )， 通 过 循环 展开 产生 更 多 的 指令 级 并 行 的 机 
会 。 图 4-78 是 针对 图 4-77 中 的 内 部 循环 使 用 编译 器 生成 对 应 的 汇编 程序 ， 对 其 中 
的 三 个 循环 体 进 行 了 展开 ， 来 发 现 更 多 的 指令 级 并 行 


图 4-78 中 是 循环 展开 后 的 汇编 代码 。 正 如 所 料 ， 图 3-23 中 的 每 条 AVX 指令 都 有 对 应 
的 四 个 版 本 。 只 有 一 个 例外 ， 我 们 只 需要 一 条 vbroadcastsd 指令 ， 因 为 可 以 在 整个 循 
环 体内 部 重复 使 用 B 元 素 在 寄存 器 %ymm0 中 的 4 个 拷贝 。 因 此 ， 图 3-23 中 的 5 条 AVX 指 
令 在 图 4-78 中 变 成 了 17 条 AVX 指令 和 7 条 定点 指令 。 注 意 ， 程 序 中 的 常数 和 地 址 计算 要 
根据 循环 展开 情况 进行 相应 变化 。 尽 管 循环 展开 了 4 次 ， 循 环 体 中 的 指令 数量 也 仅 增 加 了 1 
倍 : 从 12 条 变 为 24 条 。 

图 4-79 中 ， 相 比 未 优化 版 本 ，DGEMM (矩阵 规模 为 32 x 32 ) 中 使 用 AVX、AVX 和 循 
环 展开 得 到 了 性 能 提升 。 循 环 展开 使 得 性 能 增加 了 1 倍 ， 从 6.4 GFLOPS 到 14.6GFLOPS。 
相 比 图 3-21 中 的 未 优化 版 本 ， 国 竺 洋行 和 须 一 绥 强 行 的 优化 技术 带 来 了 8.53 倍 的 性 能 
提升 。 

有 锚 末末 正如 本 书 3.8 节 中 的 详细 阅 述 ， 这 些 评测 都 未 打开 Turbo 模式 。 如 果 像 第 3 
章 中 那样 打开 Turbo 模式 ， 可 以 通过 时 钟 频率 的 暂时 提高 (3.3 / 2.6 = 1.27 ) 获得 性 能 提升 。 
未 优化 的 DGEMM 将 从 1.7GFLOPS 变 为 2.1GFLOPS。 在 3.8 节 中 我 们 提 到 ，Turbo 模式 特 
划 泛 合流 济 情 况 ， 因为 它 只 使 用 片上 八 个 核心 中 的 一 个 。 

详细 阅 壕 ; 在 图 4-78 中 ， 第 9 行 到 第 17 行 之 间 反 复 使 用 了 寄存 器 %ymm5 ， 但 这 并 不 会 
导致 流 水 线 停 频 。 这 是 因为 Intel Core i7 流水 线 会 对 这 些 寄存 器 进行 换 名 。 








mov 


Xor 





vmovapd (%rll) ,%ymm4 


%rbx ,%raxX 
%eCcXx ,%eCX 


vmovapd 0x20(%rll) ,%ymm3 
vmovapd 0x40(%r1ll) ,%ymm2 
vmovapd 0x60(%rll) ,%ymml 


add 

vmulpd 
vaddpd 
vmulpd 
vaddpd 
vmulpd 


《站 ODAS 


请 


vmulpd 


$0x8,%rcx 

(%rax) ,%ymmo ,%ymm5 
%ymm5 ,%ymm4 ,%ymm4 
0x20(%rax) ,%ymmo0 ,%ymm5 
%ymm5 ,%ymm3 ,%ymm3 
0x40(%rax) ,%ymmo ,%ymm5 
0x60(%rax),%ymmo ,%ymmo 





记忆 
WB Sl OO 


FRI MS FS mY 
4 CW I FD 


add 
cmp 
vaddpd 
vaddpd 


%r8,%rax 
%r1l0,%rcx 

%ymm5 ,%ymm2 ,%ymm2 
%yYmmo ,%ymml ,%ymm1l 
jne 68 <dgemm+0x68> 
add $0x1,%esi 

vmovapd %ymm4,(%r11) 
vmovapd %ymm3,0x20(%r11) 
vmovapd %ymm2,0x40(%r11) 
vmovapd %ymml ,0x60(%rll) 


// 
// 
// 
I/ 
// 
// 


vbroadcastsd (%rcx,%r9,1),%ymm0 


1 


Load 4 elements of C 


register 
register 


Load 4 elements of C 
Load 4 elements of C 
Load 4 elements of C 


into %ymm4 
%rbx 
%ecx 0 


%rax 


into %ymm3 
into %ymm2 
into %ymml 


// Make 4 copies of B element 


register 
Parallel 
Parallel 
Parallel 
Parallel 
Parallel 
Parallel 
register 


Pew = Pex GE 洛 
%ymml ,4 A 
%ymm5 ，%ymm4 
%ymml ,4 A 
%ymm5 ，%ymm3 
%ymm1l ,4 A 
%ymm1l ,4 A 
%rax + %r8 


mul 
add 
mul 
add 
mul 
mul 
%rax = 


compare %r8 to %rax 


Parallel 
Parallel 


branch if %r8 != 


register 
Store 
Store 
Store 
Store 





%ymm4 into 
%ymm3 into 
%ymm2 into 
%ymml into 


add %ymm5, %ymm2 
add: %ymm0, %ymml 
%rax 
% esi+1 
45C 
小 人 
4 iG 
4 


为 esi 
elements 
elements 
elements 
elements 


图 4-78 ”编译 器 产生 的 组 套 循环 体 的 x86 汇编 程序 ，C 程序 见 图 4-77 
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图 4-79 DGEMM (和 矩阵 规模 为 32 x 32 ) 的 性 能 。 相 比 图 3-21 中 的 未 优化 版 本 ， 子 字 并 行 
和 指令 级 并 行 带 来 了 几乎 9 倍 的 性 能 提升 


AVX 





AVX+ 循 环 展开 
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4.13 高 级 专题 : 数字 设计 概述 一 一 使 用 硬件 设计 语言 进行 流水 线 建 模 
以 及 更 多 流水 线 示例 

借助 于 硬件 描述 语言 和 现代 计算 机 辅助 综合 工具 ， 现 代数 字 电路 可 以 使 用 逻辑 综合 和 标 
准 库 单元 根据 具体 描述 实现 详细 的 硬件 设计 。 关 于 这 类 语言 和 它们 在 数字 设计 中 的 使 用 ,已 
有 很 多 书籍 说 明 。 本 节 (作为 网 络 在 线 内 容 ) 仅 给 出 概述 ， 并 以 Verilog (一 种 硬件 设计 语言 
为 例 说 明 如 何 从 行为 和 硬件 可 综合 两 个 角度 来 描述 处 理 器 控制 逻辑 。 之 后 给 出 五 级 流水 线 处 
理 器 的 一 系列 Verilog 行为 级 模型 。 最 初 的 模型 不 考虑 冒险 ， 不 考虑 各 种 前 递 逻 辑 、 数 据 冒 
险 和 控制 冒险 带 来 的 变化 (在 模型 中 高 亮 表示 )。 

之 后 对 流水 线 每 周期 的 状态 变化 给 出 一 系列 图 示 ， 让 读者 可 以 更 详细 地 了 解 RISC-V 指 
令 序列 在 流水 线 上 的 工作 细节 。 


4.14 廖 误 与 陷阱 

雇 误 : 流水 线 是 简单 的 。 

本 书 用 来 证 明正 确 设 计 流水 线 需要 非常 细致 。 本 书 的 第 1 版 中 存在 一 个 流水 线 的 设计 错 
误 。 虽 然 本 书 已 经 被 100 多 位 专业 人 士 审 查 过 ， 也 被 18 所 大 学 选 为 教材 ， 但 直到 有 人 按照 
它 去 真正 实现 一 个 计算 机 时 ， 这 个 错误 才 被 发 现 。 而 在 现实 中 ， 像 mtel Core i7 那样 的 流水 
线 结构 仅 Verilog 代码 就 有 成 千 上 万 行 ， 复 杂 性 可 见 一 斑 。 务 必 当 心 ! 

廖 误 : 对 于 流水 线 等 结构 设计 ， 可 以 与 工艺 无 关 。 

当 片上 晶体 管 的 数量 和 速度 决定 了 五 级 流水 线 结 构 是 最 佳 解决 方案 时 ， 延 迟 转移 (具体 
见 4.5.2 节 的 详细 阐述 ) 就 是 一 种 解决 控制 冒险 的 简单 方法 。 随 着 流水 线 级 数 的 加 深 、 超 标 
量 执行 以 及 动态 分 支 预测 技术 的 发 展 ， 延 迟 转移 技术 就 变 得 有 些 多 余 了 。 在 20 世纪 90 年 代 
早期 ， 动 态 流水 线 调 度 占 用 越 来 越 多 的 资源 ， 却 并 没有 获得 相应 的 性 能 提升 。 但 由 于 辆 泵 定 
律 的 影响 ， 晶 体 管 数量 成 倍增 长 ， 处 理 速 度 远 超 存储 ， 多 个 功能 部 件 和 动态 流水 线 技术 也 就 
越 来 越 关键 。 目 前 ， 对 功 耗 的 密切 关注 将 使 得 结构 设计 不 会 过 于 激进 ， 更 注重 能 效 性 。 

陷阱 : 缺乏 对 指令 系统 设计 的 考虑 反 过 来 会 影响 流水 线 的 实现 。 

许多 流水 线 设计 的 困难 是 由 指令 系统 的 复杂 性 引起 的 。 以 下 举例 说 明 : 

e 可 变 的 指令 长 度 和 不 确定 的 执行 时 间 会 造成 流水 线 各 级 不 均衡 ， 从 而 使 得 设计 中 的 

冒险 检测 逻辑 变 得 特别 复杂 。 最 初 在 20 世纪 80 年 代 的 DEC VAX 8500 机 器 中 使 用 
微 操 作 和 微 流 水 线 技术 解决 了 上 述 问 题 。 今 天 该 技术 也 被 运用 到 Intel Core 这 中 。 当 
然 ， 在 微 操作 和 真正 的 指令 之 间 还 需要 进行 转换 并 维护 对 应 关系 ， 这 必然 引入 一 定 的 
开销 。 

。 复杂 的 寻 址 模式 会 引起 不 同类 型 的 问题 。 更 新 寄存 器 的 寻 址 模式 会 让 冒险 检测 更 加 复 
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杂 。 还 有 一 些 寻 址 模式 需要 进行 多 次 内 存 访问 ， 这 会 让 流水 线 控制 更 加 复杂 ， 并 使 流 
水 线 难 以 保持 不 间断 的 流动 。 

e 也 许 最 佳 例 子 就 是 DEC Alpha 和 DEC NVAX。 如 果 使 用 相似 的 工艺 节点 ，Alpha 的 
最 新 指令 系统 体系 结构 可 以 实现 性 能 超过 NVAX 的 两 倍 。 另 一 个 例子 是 ，Bhandarkar 
和 Clark[1991] 对 MIPS M/2000 和 DEC VAX 8700 进行 了 比较 。 他 们 针对 运行 SPEC 
基准 程序 的 时 钟 周 期 数 进 行 统计 ， 结 论 是 ， 虽 然 MIPS M/2000 执行 了 更 多 的 指令 ， 
但 在 VAX 上 运行 的 时 钟 周 期 数 却 是 MIPS 的 2.7 倍 ， 当 然 MIPS 更 快 。 


4.15 ”本 章 小 结 


正如 我 们 在 本 章 所 见 ， 处 理 器 的 数据 通路 和 控制 逻辑 设计 都 是 
从 分 析 指 令 系 统 和 了 和 解 工 艺 技术 的 基本 特性 开始 的 。 在 4.3 节 中 ， 
我 们 学 习 了 如 何 针对 设计 目标 (实现 一 个 单 周 期 处 理 器 ) 基于 指令 系 
统 构 建 RISC-V 处 理 器 的 数据 通路 。 当 然 ， 底 层 的 工艺 技术 也 会 影 
响 设 计 决 策 ， 例 如 数据 通路 中 使 用 何 种 功能 部 件 、 单 周期 实现 是 否 
有 意义 等 。 

茵 有 线 技术 改善 的 是 吞吐 率 ， 而 不 是 指令 固有 的 执行 时 间 ， 也 称 为 指令 延迟 。 对 于 一 些 
指令 ， 其 延迟 数 与 单 周 期 设计 类 似 。 多 发 射 机 制 添加 额外 的 数据 通路 硬件 ， 每 周期 发 射出 多 
条 指令 ， 但 这 会 增加 有 效 延 迟 。 流 水 线 技术 的 提出 可 以 提高 单 周期 数据 通路 的 时 钟 频 率 ， 相 
应 的 ， 多 发 射 技术 则 聚焦 于 降低 CPI (每 条 指令 执行 周期 数 )。 

流水 线 技术 和 多 发 射 机 制 都 在 尝试 挖掘 指令 间 的 并 行程 度 。 程 序 中 的 数据 和 控制 相关 
之 后 会 变 成 各 种 冒险 ， 它 们 的 存在 是 开发 更 高 指令 级 并 行 的 主要 限制 因素 。 借 助 于 硬件 和 软 
件 ， 通 过 甘 测 来 调度 和 推测 执行 指令 ， 是 降低 冒险 造成 的 性 能 影响 的 主要 技术 。 

在 本 章 中 ， 对 DGEMM 进行 循环 展开 四 遍 来 挖掘 更 多 的 指令 ， 利 用 Core i7 处 理 器 的 乱 
序 执 行 机 制 可 以 提升 一 倍 以 上 的 性 能 。 

20 世纪 90 年 代 ， 更 长 的 流水 线 、 多 发 射 和 动态 调度 技术 有 助 于 维持 从 80 年 代 早 期 开 
始 的 每 年 60% 的 处 理 器 性 能 提升 。 正 如 在 第 1 章 中 提 到 的 ， 这 些微 处 理 器 一 直 保 持 着 串 行 
编程 模型 ， 但 是 最 终 它们 撞 上 了 “ 功 耗 墙 "。 因 此 ， 工 业界 被 迫 转向 多 处 理 器 ， 以 开发 更 粗 
粒度 的 指令 级 并 行 (具体 见 第 6 章 )。 这 个 趋势 也 引发 设计 者 对 90 年 代 中 期 以 来 的 一 些 发 明 
中 的 能 量 - 性 能 的 含义 进行 重新 评估 。 这 导致 了 最 近 一 些 处 理 器 在 微 体系 结构 上 对 流水 线 进 
行 简化 。 

为 了 保持 通过 并 行 处 理 器 带 来 的 性 能 提升 ，Amdahl 定律 表明 系统 的 另 一 部 分 将 会 成 为 
瓶颈 。 这 将 是 下 一 章 的 主要 内 容 : 匿 医 移 存 储 。 


4.16 ”历史 视角 和 拓展 阅读 
本 章节 为 在 线 部 分 ， 阐 述 第 一 个 流水 线 处 理 器 、 最 早 超标 量 处 理 器 的 历史 ， 讨 论 乱 序 执 
行 和 推测 技术 的 发 展 以 及 同时 期 编译 技术 的 重要 进展 。 


4.17 练习 


4.1 考虑 如 下 指令 : 
指 信 :and Ta，FsI，Fs2 


明智 的 百 分 之 九 十 ， 在 于 
明智 得 及 时 。 
类 国 诬 语 





指令 延迟 : 指令 固有 的 执 
行 时 间 。 
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解释 : Reg[rd] = Reg[rsl] AND Reg[rs2] 

[5] <4.3 > 对 于 上 述 指令 ， 图 4-10 中 的 控制 信号 各 是 什么 数值 ? 

[5] <4.3> 对 于 上 述 指令 ， 将 用 到 哪些 功能 单元 ? 

[ 10 ] <4.3 > 对 于 上 述 指令 ， 哪 些 功能 单元 不 产生 任何 输出 ”哪些 功能 单元 的 输出 不 会 被 用 到 ? 
[10] <4.4> 解释 图 4-18 中 的 每 一 个 “无 关 项 ”。 





根据 下 述 指令 组 合 回答 问题 。 
24% | 28% 25% 10% 11% | 2% 




















5 ] <4.4> 发 生 数 据 访 存 的 指令 所 占 比例 ? 

5 ] <4.4> 发生 指令 访 存 的 指令 所 占 比例 ? 

5 ] < 4.4 > 使 用 符号 扩展 的 指令 所 占 比 例 ? 

5 ] < 4.4 > 当 不 需要 符号 扩展 的 结果 时 ， 符 号 扩展 单元 的 行为 是 什么 ? 

在 制造 硅 芯 片 时 ， 材 料 ( 例 如 硅 ) 缺陷 和 制造 错误 会 导致 电路 故障 。 一 个 非常 常见 的 故障 是 ， 信 
号 线 发 生 “ 断 路 "” ， 导 致 总 是 保持 逻辑 “0”。 这 被 称 为 “固定 为 0” 故障 。 

[5] <4.4> 如 果 MemToReg 信号 发 生 以 上 故障 ， 哪 些 指令 会 执行 错误 ? 

[5] <4.4> 如 果 ALUSrc 信和 号 发 生 以 上 故障 ， 哪 些 指令 会 执行 错误 ? 

本 题 中 ， 我 们 将 仔细 讨论 单 周 期 数据 通路 中 执行 指令 的 细节 。 假 设 本 周期 处 理 器 取 来 指令 : 
0x00c6ba32。 

[10] <4.4> 此 时 ALU 控制 单元 的 输入 值 是 多 少 ? 

[5 ] < 4.4 > 该 指令 执行 结束 后 新 的 PC 地 址 是 多 少 ? 标注 出 计算 该 PC 值 的 通路 。 

[10] <4.4> 对 于 每 一 个 多 选 器 ， 给 出 执行 该 指令 时 的 各 个 输入 和 输出 值 ， 列 出 寄存 器 
Reg[xn] 中 的 数值 。 

[10 ] <4.4> 此 时 ALU 和 另 两 个 加 法 单元 的 输入 数值 是 多 少 ? 

[ 10 ] < 4.4 > 寄存 器 堆 的 所 有 的 输入 数值 是 多 少 ? 

4.4 节 中 没有 讨论 I 型 指令 ， 如 addi 或 者 andi。 

[5 ] < 4.4 > 如 果 要 基于 图 4-21 添加 I 型 指令 ， 需 要 额外 的 什么 逻辑 单元 ? 

[10] <4.4> 为 addi 指令 列 出 控制 单元 产生 的 信号 值 ， 如 果 有 控制 信号 为 无 关 项 ， 给 出 理由 。 
假设 用 来 实现 处 理 器 数据 通路 的 各 功能 模块 延迟 如 下 所 示 : 


-Mem/ | Register Single | Register | Register Sign 
D-Mem File Mux | ALU | Adder | gate Read Setup extend | Control 


250ps | 150ps |25ps |200ps [150ps| Sps | 30ps | 20ps | 50ps | 5ops 




















其 中 ， 寄 存 器 读 延迟 指 的 是 ， 时 钟 上 升 沿 到 寄存 器 输出 端 稳定 输出 新 值 所 需 的 时 间 。 该 延迟 
仅 针对 PC 寄存 器 。 寄 存 器 建立 时 间 指 的 是 ， 寄 存 器 的 输入 数据 稳定 到 时 钟 上 升 沿 所 需 的 时 
间 。 该 数值 针对 PC 寄存 器 和 寄存 器 堆 。 

[5] <4.4> 有 R 型 指令 的 延迟 是 多 少 ? 比如 ， 如 果 想 让 这 类 指令 工作 正确 ， 时 钟 周 期 最 少 为 
多 少 ? 

[10] <4.4> 1d 指令 的 延迟 是 多 少 ? 仔细 检查 你 的 答案 ， 许 多 学 生 会 在 关键 路 径 上 添加 额外 的 
寄存 器 。 

[10]<4.4> sd 指令 的 延迟 是 多 少 ? 仔细 检查 你 的 答案 ， 许 多 学 生 会 在 关键 路 径 上 添加 额外 的 
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寄存 器 。 

[5] <4.4> beq 指令 的 延迟 是 多 少 ? 

[5] <4.4>I 型 指令 的 延迟 是 多 少 ? 

[5] <4.4> 该 CPU 的 最 小 时 钟 周 期 是 多 少 ? 

[10] <4.4> pe A 同 的 周期 数 。 给 定 指令 比例 如 下 表 
所 示 ， 相 比 图 4-21 中 的 处 理 器 ， 这 款 新 处 理 器 的 加 速 比 是 多 少 ? 


Wr | d | si | om 


52% 25% 11% 12% 























如 果 在 图 4-21 中 的 CPU 中 添加 一 个 乘法 器 ， 这 将 给 ALU 增添 300ps 的 延迟 。 但 是 ， 由 于 不 再 
需要 对 乘法 指令 进行 模拟 ， 指 令 数量 将 会 减少 5%。 

[5 ] < 4.4> 改 动 前 后 ， 时 钟 周期 分 别 是 多 少 ? 

[ 10 ] < 4.4 > 通过 这 个 改动 ， 将 获得 多 少 加 速 比 ? 

[10 ] < 4.4 > 在 保证 提升 性 能 的 条 件 下 ， 新 ALU 最 低频 率 是 多 少 ? 

设计 者 对 处 理 器 数据 通路 进行 改造 ， 通 常会 根据 性 价 比 做 出 方案 折 中 。 在 下 面 三 个 问题 中 ,， 若 
以 图 4-21 为 数据 通路 的 改造 基础 ， 各 单元 延迟 参考 习题 4.7， 成 本 如 下 : 


Register 1 ie Sign Single 
I-Mem File Mux | ALU | Adder | D-Mem Register extend gate Control 
100 500 


1000 | 200 | 1o | 1oo | 30 | 2000 | 5 











假设 将 通用 寄存 器 的 数量 加 倍 ， 由 32 个 扩展 为 64 个 ， 这 将 让 1d 和 sd 指令 的 数量 减少 
12%， 但 会 增加 寄存 器 堆 的 延迟 ， 由 150ps 增 至 160ps， 同 时 还 会 增加 成 本 ， 由 200 变 为 
400。( 使 用 习题 4.8 中 的 指令 组 合 ， 忽 略 习题 2.18 中 讨论 的 其 他 ISA 的 影响 。) 

[5] <4.4> 增 加 这 样 的 改进 后 ， 获 得 的 加 速 比 为 多 少 ? 

[10 ] <4.4 > 比较 性 能 上 的 变化 和 成 本 上 的 变化 。 

[10 ] < 4.4> 根据 上 述 计算 出 来 的 性 价 比 ， 考 虑 增加 寄存 器 数量 的 优化 方案 。 试 给 出 两 个 场景 ， 
一 个 说 明 该 优化 的 有 效 性 ， 另 一 个 则 相反 。 

尝试 添加 RISC-V 中 的 指令 : 1wi .d rd，rsl1，rs2 (地 址 自 增 的 load 指令 )。 

指令 释义 : Reg[rd] = Mem [Reg[rsl] +Reg[rs2]] 

[5 ] <4.4> 对 于 这 条 指令 ， 需 要 添加 的 新 功能 部 件 是 什么 ? 

[5] <4.4> 现 有 的 哪些 功能 部 件 需要 改造 ? 

[5 ] < 4.4 > 对 于 这 条 指令 ， 需 要 新 添加 的 数据 通路 是 什么 ? 

[5 ] <4.4 > 为 支持 这 条 指令 ， 为 控制 单元 新 添加 的 控制 信号 有 哪些 ? 

尝试 添加 RISC-V 中 的 指令 : swap rs1，rs2。 

指令 释义 : Reg[rs2] = Reg[rsl]; Reg[rsl] = Reg[rs2] 

[5 ] < 4.4> 对 于 这 条 指令 ,需要 添加 的 新 功能 部 件 是 什么 ? 

[10] <4.4> 现 有 的 哪些 功能 部 件 需要 改造 ? 

[5 ] < 4.4> 对 于 这 条 指令 ， 需 要 新 添加 的 数据 通路 是 什么 ? 

[5 ] < 4.4 > 为 支持 这 条 指令 ， 为 控制 单元 新 添加 的 控制 信号 有 哪些 ? 

[5 ] < 4.4> 修改 图 4-21 并 实现 该 条 指令 。 

尝试 添加 RISC-V 中 的 指令 : ss _ rs1，rs2，imm (存储 两 数 之 和 )。 
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指令 释义 : Mem[Reg[rsl]] = Reg[rs2] + immediate 

[ 10 ] < 4.4 > 对 于 这 条 指令 ， 需 要 添加 的 新 功能 部 件 是 什么 ? 

[ 10 ] <4.4> 现 有 的 哪些 功能 部 件 需要 改造 ? 

[5 ] < 4.4 > 对 于 这 条 指令 ， 需 要 新 添加 的 数据 通路 是 什么 ? 

[5 ] < 4.4 > 为 支持 这 条 指令 ， 为 控制 单元 新 添加 的 控制 信号 有 哪些 ? 

[5 ] < 4.4 > 修改 图 4-21 并 实现 该 条 指令 。 

[5] <4.4> 对 于 哪些 指令 ， 立 即 数 产生 单元 (Imm Gen block) 处 于 关键 路 径 上 ? 

从 4.4 节 可 知 ,1d 是 CPU 中 延迟 最 长 的 一 条 指令 。 如 果 修 改 1d 和 sd 的 功能 ， 去 掉 地 址 偏 移 ， 
比如 1d 或 sd 指令 的 访 存 地 址 只 能 使 用 计算 后 存放 于 rsl 中 的 数值 ， 那 么 就 不 会 有 指令 同 
时 使 用 ALU 和 数据 存储 ， 这 将 缩短 时 钟 周 期 。 但 是 这 也 会 增多 指令 数目 ， 因 为 很 多 1d 和 
sd 指令 将 会 被 1d/add 或 者 sd/add 组 合 取代 。 

[5] <4.4 > 修改 后 的 时 钟 周期 是 多 少 ? 

[ 10 ] < 4.4> 在 这 款 新 CPU 上 运行 如 习题 4.7 中 的 指令 组 合 ， 将 会 变 快 还 是 变 慢 ? 大 概 变化 多 
少 ? 为 简化 起 见 ， 假 设 每 条 ld 和 sd 指令 将 会 被 两 条 指令 的 组 合 取代 。 

[5 ] < 4.4> 在 新 款 CPU 上 影响 程序 运行 速度 变 快 或 者 变 慢 的 主要 因素 是 什么 ? 

[5] <4.4> 参 考 图 4-21， 你 认为 原先 的 CPU 是 一 款 更 好 的 设计 ， 还 是 新 款 CPU 是 一 款 更 好 的 
设计 ? 为 什么 ? 

在 本 题 中 将 讨论 流水 线 如 何 影响 处 理 器 的 时 钟 周期 。 假 设 数据 通路 的 各 个 流水 级 的 延迟 如 下 : 


0 
同时 ， 假 设 处理 器 执行 的 指令 分 布 如 下 : 


ALU/Logic Jump/Branch 


45% 20% 20% | 15% 











[5 ] <4.5 > 在 流水 化 和 非 流 水 的 处 理 器 中 ， 时 钟 周期 分 别 是 多 少 ? 

[10] < 4.5 > 在 流水 化 和 非 流水 的 处 理 器 中 ， 对 于 1d 指令 的 延迟 分 别 是 多 少 ? 

[ 10 ] < 4.5 > 如 果 我 们 将 数据 通路 中 的 一 个 流水 级 拆 成 两 个 新 流水 级 ， 每 一 个 新 流水 级 的 延迟 是 
原来 的 一 半 ， 那 么 我 们 将 拆 分 哪 一 级 ? 新 处 理 器 的 时 钟 周期 是 多 少 ? 

[ 10] < 4.5 > 假设 没有 停顿 或 冒险 ， 数据 存储 的 利用 率 如 何 ? 

[ 10 ] < 4.5 > 假设 没有 停顿 或 冒险 ,寄存 器 堆 的 写 口 利用 率 如 何 ? 

[10] <4.5> 在 一 个 k 级 流水 的 CPU 上 执行 n 条 指令 ， 最少 需要 多 少 周期 ? 证 明 你 的 公式 。 
[5 ] <4.5 > 假设 初始 化 寄存 器 x11 为 11, x12 为 22， 如 果 在 4.5 节 中 的 流水 线 结构 上 执行 下 
述 代 码 ， 寄 存 器 x13 和 x14 中 最 终 为 何 值 ? 注 : 硬件 不 处 理 数据 冒险 ， 编 程 者 需要 在 必要 处 
插入 NOP 指令 来 解决 数据 冒险 。 


addy iL, X12 -5 

add 上 

addi xl4, xll, 15 

[10] <4.5> 假 设 x11 初始 化 为 11，x12 初始 化 为 22， 如 果 在 4.5 节 中 的 流水 线 结构 上 执行 
下 述 代 码 ， 寄 存 器 x15 中 最 终 为 何 值 ? 注 : 硬件 不 处 理 数据 冒险 ， 编 程 者 需要 在 必要 处 插入 
NOP 指令 来 解决 数据 冒险 。 假 设 寄存 器 堆 先 写 后 读 ， 因 此 ID 阶段 的 指令 可 以 在 同一 周期 内 得 
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到 WB 阶段 的 数据 ， 具 体 见 4.7 节 和 图 4-51。 


addi xiLl, XIl2, 5 
add x13, x1l1, x12 

addi x1l4, x1ll, 15 

add > 1 i 

[5] <4.5> 在 下 述 代码 中 添加 NOP 指令 ， 让 它 无 须 处 理 数 据 冒 险 也 能 正确 运行 在 流水 线 处 理 
es 

agdi: XLLl, Ki, 

add > 0 Ed 

addi x14, x1l1, 15 

add X15, 13, X12 

考虑 如 4.5 节 中 的 流水 线 结构 ， 硬 件 不 处 理 数 据 冒险 (比如 ， 由 编程 人 员 负 责 发 现 数据 冒险 并 在 
必要 处 插入 NOP 指令 )。 假 设 优化 后 ，n 条 指令 的 典型 程序 需要 额外 添加 4n 条 NOP 指令 才能 
正确 处 理 数据 冒险 。 

[5 ] <4.5> 假设 这 条 没有 前 弟 通 路 的 流水 线 结构 的 时 钟 周 期 为 250ps， 假设 添 加 前 递 硬件 将 
NOP 指令 的 数量 从 4n 减少 到 0.05n， 但 是 时 钟 周期 要 增加 到 300ps。 相 比 之 下 ， 这 条 新 流水 
线 的 加 速 比 是 多 少 ? 

[10] < 4.5 > 不 同 的 程序 所 需 的 NOP 数量 是 不 同 的 。 在 不 影响 程序 性 能 的 条 件 下 ， 在 带 有 前 递 
硬件 的 流水 线 结构 中 执行 程序 ， 程 序 中 的 NOP 指令 比例 为 多 少 ? 

[10] <4.5 > 重复 上 题 。 使 用 x 表示 相对 于 指令 总 数 n 来 说 NO0P 指令 的 数量 。 比 如 ,在 4.21.1 
中 , x 为 4。 答 案 使 用 x 来 表示 。 

[10] <4.5 > 在 具有 前 递 硬件 的 流水 线 结构 中 ,， 仅 有 0.075n 条 NOP 指令 的 程序 会 运行 更 快 吗 ? 
[10 ] < 4.5 > 如 果 想 要 在 具有 前 递 硬件 的 流水 线 结构 上 更 快 地 运行 ， 最 少 需要 插入 多 少 NOP 指 
令 ( 占 代 码 数量 的 比例 ) ? 

[5] <4.5 > 对 于 如 下 的 RISC-V 的 汇编 片段 : 


sd x29, 12(x16) 

1d x29,8(x16) 

SUD Ll. KLS, le 

beqz x17, label 

有 和 在 

su ”XL 0 

[5 ] <4.5 > 请 画 出 流水 线 图 ， 说 明 以 上 代码 会 在 何 处 停顿 。 

[5] <4.5> 是否 可 通过 重 排 代码 来 减少 因 结 构 冒 险 而 导致 停顿 的 次 数 ? 

[5 ] <4.5 > 该 结构 冒险 必须 用 硬件 来 解决 吗 ? 我 们 可 以 通过 在 代码 中 插入 NOP 指令 来 消除 数据 
冒险 ， 对 于 结构 冒险 是 否 可 以 相同 处 理 ? 如 果 可 以 ， 请 解释 原因 。 否 则 ， 也 请 解释 原因 。 
[5 ] < 4.5 > 在 典型 程序 中 ， 大 约 需 要 为 该 结构 冒险 产生 多 少 个 周期 的 停顿 ? (使 用 习题 4.8 中 的 
指令 分 布 )。 

如 果 我 们 改变 load/store 指令 格式 ， 使 用 寄存 器 (不 需要 立即 数 偏 移 ) 作为 访 存 地 址 ， 这 些 指令 
就 不 再 需要 使 用 ALU (具体 见习 题 4.15 ) 。 这 样 的 话 ，MEM 阶段 和 EX 阶段 就 可 以 重合， 流 
水 级 数 变 为 四 级 。 

[ 10 ] <4.5 > 流水 线 级 数 的 减少 会 影响 时 钟 周期 吗 ? 

[10] <4.5> 这样 的 变化 会 提高 流水 线 的 性 能 吗 ? 

[10] <4.5 > 这 样 的 变化 会 降低 流水 线 的 性 能 吗 ? 
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4.25.1 
4.25.2 


4.26 


4.26.1 
4.26.2 


4.26.3 


[10] <4.7> 下面 两 个 流水 线 图 中 ， 哪 一 个 更 好 地 描述 了 流水 线 冒 险 检 测 单元 的 操作 ?为 什么 
选择 1: 


ld X11 MxLl2): IF ID EX ME WB 
add x13, xll, x14: LF TD EX ME WB 
GF WLS XL LA: IF TD .EX ME WB 
选择 2: 


ld X11, OxXl2)s EE TD EX ME We 
add XLS RIL, lye TE TD -EX ME WB 
Oi NL 6 Wh LEsas TD EX ME WB 


考虑 如 下 循环 : 


LOOP: 1d x10, 0(x13) 

1d 有 县 本 全 区 拉 雹 

add x12, x10, x1l 

subi XL Xl 6 

bhez XL LOQOP 
如 果 使 用 完美 的 分 支 预测 〈 即 没有 控制 冒险 带 来 的 流水 线 停顿 )， 流 水 线 中 没有 使 用 延迟 槽 ， 
采用 硬件 前 递 解决 数据 冒险 ， 分 支 指令 在 EX 阶段 判断 是 否 跳 转 。 
[ 10 ] < 4.7> 给 出 该 循环 中 前 两 次 循环 的 流水 线 执行 图 。 
[ 10 ] <4.7> 标注 出 没有 进行 有 用 操作 的 流水 级 。 当 流水 线 全 负荷 工作 时 ， 所 有 五 个 流水 级 都 在 
进行 有 用 操作 的 情况 多 久 会 出 现 一 次 ? (从 subi 指令 进入 IF 阶段 开始 计算 ,到 bnez 指令 进 

入 IF 阶段 结束 。) 

本 题 尝 试 帮助 大 家 了 解 ， 对 于 带 前 递 的 流水 线 处 理 器 ， 如 何在 成 本 / 复杂 度 / 性 能 间 进 行 折 中 。 
关于 本 题 可 参考 图 4-53 中 的 流水 线 数据 通路 。 假 设 在 该 处 理 器 上 执行 的 指令 片段 存在 一 种 
RAW 数据 相关 。 这 种 RAW 数据 相关 存在 于 产生 结果 的 流水 级 (例如 EX 或 MEM) 和 使 用 该 
结果 的 后 续 指 令 之 间 (例如 第 一 条 指令 紧 跟 产生 结果 的 指令 ， 第 二 条 也 是 如 此 ， 或 者 跟前 两 
条 都 相关 )。 假 设 在 时 钟 的 前 半 周 期 完成 寄存 器 的 写 操 作 ， 在 后 半 周 期 完成 寄存 器 的 读 操 作 。 
因此 “EX 阶段 到 第 三 条 指令 ”以 及 “MEM 阶段 到 第 三 条 指令 ”之 间 的 数据 相关 都 不 会 引起 
数据 冒险 。 假 设 分 支 指令 是 在 EX 阶段 判断 是 否 发 生 跳 转 。 如 果 流 水 线 不 存在 数据 冒险 ， 则 
CPI 为 1 


EX to MEM to 1# EX to 2"4 MEM to 2"™ EX to 1s and EX 

1 Only Only Only Only to 2nd 
| 5% | 20% 5% | 10% 10% | 
假设 单个 流水 级 的 延迟 如 下 。 对 于 EX 阶段 ， 分 为 没有 前 递 支持 和 带 有 各 种 类 型 的 前 递 支持 。 


EX (FW EX (FW 
EX (no EX (full from EX/ from MEM/ MEM WB 
FW) FW) MEM only) WB only) 


120ps | 100ps | 110ps | 130ps | 120ps | 120ps | 120ps | 100ps | 














[5 ] <4.7> 对 于 以 上 的 每 种 RAW 相关 ， 写 出 一 段 包 含 至 少 三 条 汇编 指令 的 代码 。 
[5] <4.7> 对 于 上 述 每 种 RAW 相关 ， 给 出 的 代码 中 需要 插入 多 少 条 NOP 指令 ， 才 能 保证 在 没 
有 前 递 支持 或 冒险 检测 的 流水 线 数据 通路 上 执行 正确 ? 说 明 NOP 指令 插入 的 位 置 。 
[ 10 ] <4.7> 独立 分 析 单 条 指令 可 能 会 让 插入 的 NOP 指令 数 过 量 。 写 一 段 只 有 三 条 汇编 指令 芯 
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程序 ， 满 足 : 独立 分 析 单 条 指令 时 得 到 的 流水 线 停顿 次 数 大 于 流水 线 为 避免 数据 冒险 而 真实 
停顿 的 次 数 。 

[10] <4.7> 假 设 没 有 其 他 冒险 ， 上 表 中 描述 的 程序 运行 在 没有 前 递 支持 的 流水 线 中 ,CPI 是 多 
少 ? 停顿 周期 占 比 多 少 ? (为 了 简化 起 见 ， 假 设 所 有 必须 考虑 的 情况 都 被 列 在 上 表 中 。) 

[5 ] <4.7> 如 果 使 用 支持 完全 前 递 的 流水 线 (前 递 所 有 需要 前 递 的 结果 ),CPI 是 多 少 ? 停顿 周 
期 占 比 多 少 ? 

[10 ] <4.7> 假 设 无 法 提供 三 输入 的 多 选 器 来 实现 完全 前 递 ， 因 此 需要 判断 是 否 只 前 递 EX/ 
MEM 寄存 器 (一 周期 前 递 ) 或 只 前 递 MEM/WB 寄存 器 (两 周期 前 递 ) 。 对 每 种 方案 计算 CPI。 
[5] <4.7> 给 定 冒 险 出 现 的 概率 以 及 流水 线 的 各 级 延迟 ， 相 比 没有 前 递 支持 的 流水 线 ， 添 加 了 
每 种 前 递 类 型 (EX/MEM，MEM/WB ， 完 全 前 递 ) 的 流水 线 获得 的 加 速 比 是 多 少 ? 

[5 ] <4.7 > 如 果 我 们 能 够 添加 “时 空 穿越 ”前 递 逻 辑 消除 所 有 的 数据 冒险 ， 相 比 4.26.7 中 的 最 
快 的 处 理 器 ， 提 高 的 加 速 比 是 多 少 ? 假设 相对 于 完全 前 递 的 EX 阶段 ， 这 种 还 未 被 发 明 的 “时 
空 穿越 ”前 递 电路 需要 增加 100ps 的 延迟 。 

[5 ] <4.7> 在 冒险 类 型 表 中 , 将 “EX 到 第 一 条 指令 和 “EX 到 第 一 条 指令 以 及 EX 到 第 二 条 
指令 ”分 成 两 类 ， 为 何 表 中 没有 “MEM 到 第 一 条 指令 和 MEM 到 第 二 条 指令 ”这 个 类 型 呢 ? 
讨论 下 述 指 令 序列 ， 假 设 在 一 个 五 级 流水 的 数据 通路 中 执行 : 


add. X15 x1L2, 六 1 
1d x13, 4(x15) 
1d X12 Q(X2Y 
or XLS LS X13 
sd XSD QCXLS 


5 ] < 4.7 > 如 果 没 有 前 递 逻辑 或 者 冒险 检测 支持 ， 请 插入 NOP 指令 保证 程序 正确 执行 。 

] < 4.7 > 对 代码 进行 重 排 ， 插 入 最 少 的 NOP 指令 。 假 设 寄存 器 x17 可 用 来 做 临时 寄存 器 。 
10 ] <4.7> 如 果 处 理 器 中 支持 前 递 ， 但 未 实现 冒险 检测 单元 ， 上 述 代码 段 的 执行 将 会 发 生 
什么 ? 
] <4.7> 以 图 4-59 中 的 冒险 检测 和 前 递 单元 为 例 ， 如 果 执 行 上 述 代码 ， 在 前 7 个 时 钟 周期 
中 ， 每 周期 哪些 信号 会 被 它们 置 为 有 效 ? 

[ 10 ] < 4.7 > 如 果 没 有 前 递 单元 ， 以 图 4-59 中 的 冒险 检测 逻辑 为 例 ， 需 要 为 其 增加 哪些 输入 和 
输出 信号 ? 

[ 20 ] <4.7 > 如 果 使 用 习题 4.26.5 中 的 冒险 检测 单元 ， 执 行 上 述 代码 ， 在 前 5 个 时 钟 周 期 中 ， 
每 个 周期 哪些 输出 信号 会 有 效 ? 

分 支 预测 器 的 重要 性 与 条 件 分 支 指令 执行 频率 有 关 ， 它 与 分 支 预测 正确 率 共 同 决定 了 分 支 预测 
错误 时 带 来 的 性 能 损失 。 本 题 中 ， 假 设 在 动态 执行 指令 中 ， 各 类 型 指令 比例 如 下 表 : 


PR 
| 5s% | 25% | 5% | 


pe 
| 40% | 25% 











同时 ， 假 设 各 种 分 支 预测 器 的 正确 率 如 下 : 


Always- Taken Always-Not-Taken 


45% | 55% | 85% | 


[10 ] < 4.8 > 分支 预测 错误 带 来 的 流水 线 停顿 将 会 增 大 CPI。 如 果 使 用 静态 预测 且 总 是 预测 跳 
转 ， 请 计算 由 于 分 支 预测 错误 带 来 的 额外 CPI 增 加。 假设 : 是 否 跳 转 在 ID 阶段 进行 判断 ， 但 
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在 EX 阶段 被 使 用 ， 因 此 不 会 产生 数据 冒险 ， 同 时 不 使 用 延迟 模 。 

[ 10 ] < 4.8 > 如 果 使 用 静态 预测 且 总 是 预测 不 跳 转 ， 上 题 如 何 ? 

[ 10 ] < 4.8 > 如 果 使 用 2 位 预测 器 ， 上 题 如 何 ? 

[ 10 ] < 4.8 > 假设 使 用 2 位 预测 器 ， 如 果 将 一 半 的 分 支 指令 转换 为 ALU 指令 ， 将 会 得 到 多 少 性 
能 提升 ? 假设 无 论 是 否 预测 正确 ， 所 有 的 分 支 指令 替换 成 ALU 指令 的 机 会 均等 。 

[10 ] <4.8 > 假设 使 用 2 位 预测 器 ， 如 果 将 一 半 的 分 支 指令 进行 蔡 换 ， 每 条 分 支 指令 替换 为 两 条 
ALU 指令 ， 将 会 得 到 多 少 性 能 提升 ? 假设 无 论 是 否 预测 正确 ， 所 有 的 分 支 指令 替换 成 ALU 
指令 的 机 会 均等 。 

[10] < 4.8 > 相 比 之 下 ， 某 些 分 支 指令 具 备 更 高 的 可 预测 性 。 如 果 我 们 知道 80% 的 分 支 指令 是 
用 于 向 后 跳 转 的 循环 ， 且 总 能 被 正确 预测 。 对 于 另外 20% 的 分 支 指令 ， 使 用 2 位 预测 器 的 预 
测 正确 率 为 多 少 ? 

本 题 中 将 讨论 不 同 的 分 支 预 测 器 的 正确 率 ， 重 复 执行 的 分 支 模式 (例如 循环 ) 为 : T，NT，T， 
下 

[5 ] < 4.8 > 如 果 采 用 静态 预测 ， 对 于 总 是 预测 跳 转 或 总 是 预测 不 跳 转 ， 分 支 预测 正确 率 分 别 为 
多 少 ? 

[5] <4.8> 对 于 前 4 条 分 支 指令 采用 2 位 预测 器 ， 分 支 预测 正确 率 为 多 少 ?” 假设 预测 器 的 初始 
状态 为 图 4-61 中 的 左下 状态 (预测 不 跳 转 ) 。 

[ 10 ] < 4.8 > 如 果 给 定 模 式 无 限 循环 下 去 ，2 位 预测 器 的 正确 率 是 多 少 ? 

[ 30 ] < 4.8 > 如 果 给 定 模式 无 限 循环 下 去 ， 请 设计 一 个 完美 的 预测 器 。 该 预测 器 应 有 带 一 位 输出 
的 时 序 电 路 以 提供 预测 结果 (1 为 跳 转 ，0 为 不 跳 转 )， 输 入 信号 只 有 时 钟 和 一 个 指示 是 否 为 
分 支 指令 的 控制 信号 。 

[ 10 ] < 4.8 > 如 果 分 支 执行 结果 正好 与 给 定 例子 相反 ， 使 用 4.29.4 中 的 预测 器 ， 分 支 预测 正确 
率 为 多 少 ? 

[20] <4.8> 重 复 4.29.4， 对 于 以 上 两 种 分 支 执行 结果 ， 新 设计 的 预测 器 从 完美 预测 开始 〈 即 允 
许 先 进行 一 段 时 间 的 暖 身 ， 允 许 做 出 错误 预测 )。 预 测 器 应 具有 一 个 输入 ， 用 来 提供 真实 的 分 
支 执行 结果 。 提 示 : 这 个 输入 用 来 让 预测 器 判断 当前 的 分 支 模 式 是 上 述 两 种 中 的 哪 一 种 。 

本 题 讨论 例外 处 理 程序 对 流水 线 设计 的 影响 。 本 题 中 的 前 三 个 问题 与 下 面 两 条 指令 有 关 : 


此 人 

beqz xll, LABEL 1d xll, 0(x12) 
[5 ] < 4.9> 这 些 指令 可 能 会 触发 哪些 例外 ? 对 每 一 种 例外 ， 说 明 分 别 在 哪个 流水 级 被 检测 到 。 
[5 ] <4.9 > 如 果 对 于 每 种 例外 都 有 单独 的 地 址 存放 对 应 的 处 理 程序 ， 解 释 如 何 改造 流水 线 结构 
使 其 能 够 处 理 这 些 例 外 。 假 设 这 些 例 外 处 理 程序 对 应 的 地 址 都 是 已 知 的 。 
[ 10 ] < 4.9> 如 果 第 二 条 指令 紧 接 在 第 一 条 指令 之 后 取 指 ， 按 照 4.30.1 中 所 列 出 的 例外 类 型 ， 
假设 第 一 条 指令 引发 了 第 一 种 例外 ， 流 水 线 中 会 如 何 处 理 ? 给 出 流水 线 执行 图 ， 从 第 一 条 指 
令 取 指 开始 ， 到 第 一 条 指令 引发 的 例外 处 理 程序 结束 为 止 。 
[ 20 ] <4.9> 假设 对 例外 处 理 程序 地 址 进行 向 量化 ， 将 其 以 表 的 形式 存放 在 固定 地 址 开始 的 数据 
存储 中 。 为 实现 例外 处 理 机 制 如 何 改造 流水 线 ? 重复 习题 4.30.3 ， 结 果 如 何 ? 
[15 ] < 4.9> 如 果 在 一 台 只 有 一 个 固定 例外 处 理 程序 入 口 的 机 器 上 模拟 向 量化 例外 处 理 (如 
4.30.4 所 示 )， 写 出 位 于 固定 入 口 处 的 代码 段 。 提 示 : 该 代码 段 需要 完成 例外 类 型 的 判断 ， 从 
例外 向 量 表 中 获得 处 理 程序 的 正确 入 口 地 址 ， 并 转向 执行 例外 处 理 程序 。 
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本 题 中 对 单 发 射 和 双 发 射 处 理 器 进行 性 能 比较 ， 并 考虑 针对 双 发 射 执 行 如 何 优化 程序 。 代 码 如 
下 所 示 (使 用 C 语言 ): 


ort lin i ied i 
b[ij=a[i]-aLi+l]; 


不 做 任何 优化 的 编译 器 产生 下 述 RISC-V 的 汇编 代码 : 


1 2 和 
jal ENT 
TOPs ll “XD 2 
ddd X60 WLIO: 5 
1d XXX 
1d X29 B(X6) 
sub X30, X7, X29 
add 次 KlL: XS 
sd X30 OCI3L) 
1 A 4 
ENT> ‘bre le. %13s TOP 





上 述 代 码 中 使 用 了 以 下 寄存 器 : 
BO 
X12 六 1] 久 x10 x11l | x5 一 x7， X29 一 X31 








假设 本 题 中 的 双 发 射 、 静 态 调度 处 理 器 具有 以 下 特性 : 
1. 同时 发 射 的 指令 中 必须 一 条 是 访 存 指令 ， 另 一 条 是 算术 / 逻辑 指令 或 者 分 支 指令 。 


.2. 处 理 器 各 级 之 间 支 持 所 有 的 前 递 (包括 处 理 分 支 指令 的 ID 阶段 的 前 递 )。 


3. 处 理 器 有 完美 的 分 支 预测 。 

4. 如 果 两 条 指令 有 依赖 关系 ， 它 们 不 能 同时 被 发 射 (具体 见 4.10.2 节 )。 

5. 如 果 必 须 停 顿 流 水 线 ， 则 同一 个 发 射 包 中 的 两 条 指令 需要 同时 停顿 (具体 见 4.10.2 节 )。 
完成 以 下 这 些 练习 ， 并 且 所 写 代 码 能 够 获得 接近 最 优 的 加 速 比 ， 并 统计 所 花 时 间 。 

[30] <4.10> 画 出 上 述 RISC-V 代码 运行 在 双 发 射 处 理 器 上 的 流水 线 图 。 假 设 该 循环 执行 两 遍 
后 退出 。 

[10] < 4.10 > 相 比 单 发 射 处 理 器 ， 双 发 射 处 理 器 的 加 速 比 是 多 少 ? 假设 该 循环 执行 多 遍 。 
[10] <4.10> 重 写 上 述 RISC-V 代码 以 在 单 发 射 处 理 器 上 获得 性 能 提升 。 提 示 : 使 用 指令 
“beqz xl13，DONE”, 在 j= 0 时 可 以 避免 进入 循环 。 

[20] <4.10> 重 写 上 述 RISC-V 代码 以 在 双 发 射 处 理 器 上 获得 性 能 提升 。 但 是 ， 请 不 要 将 循环 
展开 。 

[30] <4.10> 使 用 4.31.4 中 的 优化 代码 重复 习题 4.31.1。 

[ 10 ] <4.10> 运行 习题 4.31.3 和 4.31.4 中 优化 后 的 代码 ， 从 单 发 射 到 双 发 射 处 理 器 ， 获 得 的 加 
速 比 是 多 少 ? 

[10] <4.10> 将 4.31.3 中 的 RISC-V 代码 进行 循环 展开 ， 展 开 后 的 一 次 循环 处 理 原 始 循环 
中 的 两 遍 。 面 向 单 发 射 处 理 器 重 写 这 段 代码 ， 以 得 到 更 高 的 性 能 。 假 设 变 量 j 是 4 的 
倍数 。 

[20] <4.10> 将 4.31.4 中 的 RISC-V 代码 循环 展开 ， 展 开 后 的 一 次 循环 处 理 原始 循环 中 的 两 遍 。 
面向 双 发 射 处 理 器 重 写 这 段 代码 ， 以 得 到 更 高 的 性 能 。 假 设 变量 j 是 4 的 倍数 。 提 示 : 对 循 
环 体 进行 重组 ， 让 某 些 计 算 在 循环 外 或 者 在 循环 结束 时 执行 。 假 设 临时 寄存 器 中 的 数值 只 
循环 体内 有 效 。 
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[10] < 4.10 > 运行 习题 4.31.7 和 4.31.8 中 循环 展开 后 、 优 化 后 的 代码 ， 从 单 发 射 到 双 发 射 处 理 
器 ， 获 得 的 加 速 比 是 多 少 ? 

[30] <4.10 > 假设 双 发 射 处 理 器 上 只 能 同时 运行 两 条 算术 /逻辑 指令 ， 重 复习 题 4.31.8 和 
4.31.9。 换 名 话说， 指令 包 中 的 第 一 条 指令 可 以 是 任意 类 型 的 指令 ， 但 是 第 二 条 指令 必须 是 算 
术 或 者 逻辑 指令 。 两 条 访 存 指 令 是 不 能 同时 被 调度 执行 的 。 

本 题 中 讨论 能 耗 有 效 性 与 性 能 之 间 的 关系 。 假 设 指令 存储 、 寄 存 器 和 数据 存储 的 动态 能 耗 如 下 
表 所 示 。 假 设 数据 通路 其 他 部 件 消耗 的 能 量 可 以 忽略 不 计 。 其 中 ,寄存 器 读 ” 和 “寄存 器 写 "” 
仅 针对 寄存 器 堆 而 言 。 


1Register Read Register Write D-Mem Read D-Mem Write 


140p) | 70pJ | 60pj 140pJ | 120p] 


假设 数据 通路 部 件 的 延迟 如 下 表 所 示 ， 并 假设 数据 通路 的 其 他 部 件 的 延迟 可 以 忽略 不 计 。 


Register Read or Write D-Mem Read or Write 


| 200ps | 150ps | 90ps | 9ops | 250ps | 


[5 ] <4.3, 4.6, 4.14 > 在 单 周期 和 五 级 流水 线 的 处 理 器 上 执行 一 条 add 指令 花费 的 能 量 分 别 是 
多 少 ? 

[ 10 ] < 4.6, 4.14 > 哪 类 RISC-V 指令 消耗 能 量 最 多 ? 消耗 的 能 量 是 多 少 ? 

[ 10 ] < 4.6, 4.14 > 以 减少 能 量 消耗 为 重要 目标 ， 如 何 更 改 流水 线 设计 ? 更 改 后 ， 在 流水 线 上 运 
行 1d 指令 ， 能 耗 下 降 的 比例 是 多 少 ? 

[ 10 ] < 4.6, 4.14 > 对 于 上 题 的 流水 线 更 改 ， 如 果 运 行 其 他 指令 ， 能 耗 下 降 的 比例 是 多 少 ? 

[ 10 ] < 4.6, 4.14 > 习题 4.32.3 中 的 修改 对 流水 线 CPU 的 性 能 有 什么 影响 ? 

[ 10 ] < 4.6, 4.14 > 如 果 去 掉 MemRead 控制 信号 ， 每 个 周期 都 可 以 读数 据 存储 ， 即 MemRead 恒 
为 1。 解释 如 此 修改 后 为 何 处 理 器 功能 仍然 正确 。 如 果 25% 的 指令 类 型 是 load 指令 ， 这 个 修 
改 在 时 钟 频率 和 能 耗 方面 会 产生 什么 影响 ? 

在 制造 硅 芯 片 时 ， 材 料 (例如 硅 ) 的 缺陷 和 制造 错误 会 导致 电路 失效 。 一 个 非常 普遍 的 问题 是 一 
根 线 上 的 信号 会 对 相 邻 线 上 的 信号 产生 影响 ， 这 被 称 为 串扰 。 有 一 类 串扰 问题 是 这 样 的 ， 某 
些 线 上 的 信号 为 常 值 ( 如 电源 线 )， 该 线 附近 的 线 也 被 固定 为 0 (stuck-at-0 ) 或 1 (stuck-at-1 )。 
下 面 习 题 中 的 缺陷 发 生 在 图 4-21 中 寄存 器 堆 的 输入 端 “ 寄 存 器 写 ” 的 第 0 位 。 

[ 10 ] < 4.3, 4.4 > 假设 测试 处 理 器 缺陷 的 方式 如 下 : 先 给 PC、 寄 存 器 堆 、 数 据 和 指令 存储 器 中 
预 设 数值 (可 以 自己 选择 ); 任意 执行 一 条 指令 ， 然 后 读 出 PC、 寄 存 器 堆 和 存储 器 中 的 值 ; 最 
后 检查 这 些 值 以 判断 处 理 器 中 是 否 存在 缺陷 。 能 否 设计 一 个 方案 ， 用 来 检查 该 信号 上 是 否 有 
“固定 为 0” 缺陷 吗 ? 

[ 10 ] < 4.3, 4.4> 重复 习题 4.33.1， 本 次 检查 “国定 为 1” 缺陷 。 能 和 否 设计 一 个 测试 方案 ， 同 时 
检查 这 两 个 缺陷 ?如果 可 以 ， 请 解释 如 何 实现 ; 如 果 不 能 ， 请 说 明理 由 。 

[ 10 ] < 4.3, 4.4 > 如 果 我 们 知道 处 理 器 的 某 个 信号 具有 “国定 为 1” 缺陷 ， 该 处 理 器 还 能 用 吗 ? 
如 果 可 用 ， 需 要 将 在 正常 RISC-V 处 理 器 上 运行 的 程序 转换 成 在 本 处 理 器 上 可 以 运行 的 程序 。 
假设 有 足够 的 空闲 存储 ， 可 以 存放 更 长 的 程序 和 额外 的 数据 。 

[10] <4.3, 4.4> 重 做 习题 4.33.1， 本 次 检测 控制 信号 MemRead 是 否 存在 如 下 缺陷 : 如 果 
branch 为 0 时 ，MemRead 信号 为 0， 则 有 缺陷 ， 和 否则 无 缺陷 。 

[10 ] <4.3, 4.4> 重 做 习题 4.33.1， 本 次 检测 控制 信号 MemRead 是 否 存在 如 下 缺陷 : 如 果 
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RegRd 为 1 时 ，MemRead 信号 为 1， 则 有 缺陷 ， 否 则 无 缺陷 。 提 示 : 本 问题 需要 操作 系统 知 
识 ， 需 考虑 是 和 否 会 引发 段 错误 (segmentation fault)。 
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计算 机 的 五 个 经 典 部 件 
5.1 引言 


从 最 早 的 计算 开始 ， 编 程 者 就 希望 能 有 无 限 大 的 高 速 存储 。 本 
章 主要 探讨 如 何 帮 助 程序 员 构 造 一 个 容量 无 限 大 的 存储 器 。 开 始 之 
前 ， 让 我 们 做 一 个 简单 的 类 比 ， 来 说 明 使 用 的 基本 概念 和 关键 技术 。 

假设 你 是 一 个 学 生 ， 正 在 写 关 于 计算 机 硬件 重要 发 展 历史 的 毕 
业 论文 。 你 坐 在 图 书馆 的 书桌 前 ， 桌 上 堆 满 了 从 书架 上 抽出 来 的 各 
种 书籍 。 你 发 现 许 多 你 要 写 到 的 重要 计算 机 都 能 从 书 中 找到 ， 但 是 
唯 独 没 有 EDSAC。 因 此 ， 你 回 到 书架 前 开始 寻找 。 你 找到 了 一 本 记 
录 英 国 早 期 计算 机 的 书籍 ， 里 面 涉及 EDSAC。 如 果 之 前 摆 在 你 书桌 
上 的 那 堆 书 是 经 过 精心 挑选 的 ， 那 么 很 多 你 所 需要 的 资料 都 能 从 中 
找到 ， 这 样 你 会 把 大 量 的 时 间 花 费 在 阅读 上 ， 而 不 是 返回 到 书架 前 
寻找 。 相 比 于 书桌 上 只 放 一 本 书 然 后 频繁 地 在 书架 和 书桌 之 间 往 返 ， 
在 书桌 上 放置 更 多 的 书籍 显然 会 节省 时 间 。 





理想 中 ， 我 们 都 希望 有 
无 限 大 的 存储 容量 ， 任 
何 特别 的 数据 都 能 够 立即 
获得 …… 我 们 不 得 不 认识 
到 构建 层次 化 存储 的 可 能 
性 。 在 这 样 的 结构 中 ， 相 
比 于 上 一 级 存储 ，( 每 级 存 
储 ) 具有 更 大 的 容量 ， 但 
访问 速度 却 会 更 慢 。 

A WBurks, HH Goldstine 
和 /von Neumann， 浅 谈 电 子 
太 划 仪器 的 多 大 设计 ，7194G 


按照 这 样 的 原理 ， 我 们 也 可 以 建立 一 个 大 容量 的 存储 ， 并 且 其 访问 速度 和 小 容量 存储 一 
样 快 。 就 像 你 不 需要 同时 等 概率 地 阅读 图 书馆 中 的 每 一 本 书 一 样 ， 程 序 也 不 会 同时 等 概率 地 
访问 每 一 段 代 码 或 数据 。 和 否则 ， 就 不 可 能 建立 一 个 容量 又 大 、 访 问 速度 又 快 的 存储 ， 就 像 不 
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可 能 把 图 书馆 中 的 所 有 书 搬 到 你 的 书桌 上 还 想 快速 检索 到 任何 你 想 要 的 资料 一 样 。 

不 管 是 在 图 书馆 中 工作 ， 还 是 执行 计算 机 程序 ， 都 存在 局 部 性 原理 (principle of 
locality)。 局 部 性 原理 表明 ， 在 任意 一 段 时 间 内 程序 都 只 会 访问 地 址 空间 中 相对 较 小 的 一 部 
分 内 容 ， 就 如 你 只 会 查阅 图 书馆 的 一 部 分 藏书 一 样 。 局 部 性 有 两 种 : 

e。 时 间 局 部 性 (temporal locality) : 如 果 某 个 数据 项 被 访问 ， 那 “| 时 间 局 部 性 : 该 原理 表明 
么 在 不 久 的 将 来 它 可 能 再 次 被 访问 。 就 如 你 最 近 刚 借阅 了 某 | 如 果 某 个 数据 项 被 访问 ， 
本 书 ， 那 么 很 可 能 你 很 快 需要 再 次 借阅 它 。 机 
空间 局 部 性 (spatial locality) ， 如 果 某 个 数据 项 被 访问 ， 与 它 1 
地 址 相 邻 的 数据 项 可 能 很 快 也 将 被 访问 。 例 如 ， 当 你 借阅 了 | 空间 局 部 性 ， 该 原理 才 
关于 英国 早期 计算 机 的 书籍 来 学 习 EDSAC， 你 可 能 还 会 注 | 明 如 果 某 个 数据 项 被 访 
意 到 书架 上 挨 着 它 的 还 有 另 一 本 关于 早期 工业 计算 机 的 书 | 问 ， 与 它 地 址 相 邻 的 数 
籍 ， 因 此 你 也 会 将 这 本 书 借 回 来 并 发 现 其 中 有 不 少 有 用 的 资 | 入 人 生生 生生 和 村 
料 。 图 书馆 将 相同 主题 的 书籍 放 在 相同 的 书架 上 ， 这 增加 了 
空间 局 部 性 。 本 章 稍 后 将 会 讨论 层次 化 存储 如 何 利 用 程序 的 空间 局 部 性 。 

正如 查阅 书桌 上 的 书籍 具有 天 然 的 局 部 性 ， 程 序 的 局 部 性 就 体现 在 简单 、 自 然 的 程序 结 
构 中 。 例 如 ， 大 多 数 程序 都 有 循环 结构 ， 因 而 指令 和 数据 很 可 能 会 被 重复 访问 ， 这 显示 出 很 
明显 的 时 间 局 部 性 。 指 令 一 般 都 是 顺序 访问 ， 因 而 也 显示 出 很 明显 的 空间 局 部 性 。 数 据 访 问 
本 质 上 具有 很 强 的 空间 局 部 性 。 例 如 ， 顺 序 访问 数组 元 素 或 者 结构 体 ， 这 本 身 就 具有 很 明显 
的 空间 局 部 性 。 

我 们 可 以 利用 局 部 性 原理 来 构建 计算 机 的 存储 系统 ， 也 称 为 存 “| 存储 层次 结构 :多 级 存储 
储 层 次 结构 (memory hierarchy)。 存 储 层次 结构 包括 不 同 速度 和 容 | 采用 的 结构 ， 即 与 处 理 器 
量 的 多 级 存储 。 存 储 速 度 越 快 ， 价 格 越 昂贵 ， 但 容量 越 小 。 ae 

图 5-1 中 ， 速 度 越 快 的 存储 越 靠近 处 理 器 ; 越 慢 的 存储 成 本 越 E 
低 ， 离 处 理 器 越 远 。 这 样 做 的 目的 是 以 最 低 的 价格 为 用 户 提供 最 大 
容量 的 存储 ， 同 时 访问 速度 与 最 快 的 存储 相当 。 


速度 | aa 尺寸 价格 ( 美元 / 位) ”当前 技术 
最 快 | 存 依 器 | 最 小 最 高 SRAM 


DRAM 





最 慢 最 大 最 低 磁盘 





图 5-1 层次 化 存储 的 基本 结构 。 通 过 实现 存储 系统 的 层次 化 ， 用 户 对 其 有 了 如 下 认识 : 它 
的 容量 和 最 下 层 存 储 一 样 大 ， 访 问 速 度 和 最 快 的 那 层 存储 相当 。 在 许多 个 人 移动 设 
备 中 闪存 ( flash memory) 替代 了 磁盘 ， 同 时 可 以 作为 台式 计算 机 和 服务 器 的 一 个 新 
的 存储 层次 。 具 体 见 5.2 节 


200 多 5 募 





同样 ， 数 据 也 有 相似 的 层次 性 : 靠近 处 理 器 那 一 层 中 的 数据 是 那些 较 远 层 次 中 数据 的 子 
集 ， 所 有 的 数据 都 被 存在 最 远 的 那 一 层 。 依 然 使 用 图 书馆 的 例子 进行 类 比 ， 书 桌 上 的 书籍 是 
图 书馆 藏书 的 一 个 子 集 ， 也 是 学 校 所 有 图 书馆 藏书 的 一 个 子 集 。 而 且 ， 离 处 理 器 越 远 的 存储 
层次 访问 时 间 也 越 长 ， 就 像 我 们 在 学 校 图 书馆 系统 中 可 能 遇 到 的 情况 一 样 。 

层次 化 存储 可 以 由 不 同 的 层次 组 成 ， 但 是 数据 只 能 在 两 个 相 邻 层次 之 间 进 行 复 制 。 因 此 ， 
我 们 重点 关注 这 两 个 层次 。 上 一 层 (靠近 处 理 器 的 层次 ) 比 下 一 层 
容量 要 小 ， 速 度 要 快 ， 因 为 上 一 层 存 储 使 用 了 成 本 更 高 的 工艺 。 如 
angina 用 et 
(block 或 line)。 在 上 述 图 书馆 的 类 比 中 ， 最 小 的 信息 块 就 是 一 本 书 。 | 息 的 最 小 单位 。 





图 5-2 ”层次 化 存储 中 每 对 层次 可 被 看 作 上 层 和 下 层 。 在 每 层 中 ， 信 息 存 储 的 最 小 单位 称 为 
块 或 行 (block 或 line)。 通 常 ， 当 我 们 在 相 邻 层 次 之 间 进 行 拷贝 时 ， 都 是 传输 一 个 
完整 的 块 


如 果 处 理 器 所 需 的 数据 在 本 层 的 存储 中 找到 ， 称 为 命中 (hit)， 类 比 于 你 在 桌 上 的 某 本 
书 中 找到 了 所 需 信 息 。 如 果 没 在 本 层 存 储 中 找到 所 需 数 据 ， 称 为 失效 (miss)， 将 访问 下 一 
级 存储 。 可 类 比 于 你 从 书桌 来 到 书架 前 ， 寻 找 想 要 的 书籍 。 命 中 率 
(hit rate 或 hit ratio) 指 的 是 在 访问 本 层 存储 时 命中 的 次 数 占 总 次 数 
的 比例 ， 通 常 作为 存储 层次 结构 的 性 能 衡量 指标 之 一 。 失 效率 (miss 
rate， 即 1-hit rate) 指 的 是 在 访问 本 层 存储 时 失效 的 次 数 占 总 次 数 
的 比例 。 

由 于 性 能 是 引入 层次 化 存储 的 主要 原因 ， 数 据 命 中 和 失效 的 处 
理 时 间 是 非常 重要 的 。 命 中 时 间 (hit time) 是 访问 本 层 存储 的 时 间 ， 
包括 判断 访问 命中 或 失效 的 时 间 〈 即 查阅 桌 上 所 有 书籍 的 时 间 )。 失 
效 损 失 ( miss penalty) 指 的 是 将 相应 的 块 从 下 层 存 储 替 换 到 上 层 存 
储 中 的 时 间 ， 加 上 将 该 数据 块 返回 给 处 理 器 的 时 间 〈 即 从 书架 上 获 
得 另 一 本 书 并 将 它 放 在 书桌 上 的 时 间 )。 由 于 上 层 存储 容量 更 小 ， 并 
由 速度 更 快 的 存储 组 成 ， 命 中 时 间 也 比 下 层 存储 的 访问 时 间 短 ， 而 | 失效 损失 : 将 数据 块 从 下 
访问 下 层 存储 的 时 间 是 失效 损失 的 重要 组 成 部 分 ( 即 查阅 书桌 上 的 。 | 层 存储 复制 至 某 层 所 震 的 
书 的 时 间 比 走 到 书架 前 获得 一 本 有 用 新 书 的 时 间 要 少 得 多 )。 Mm 

正如 我 们 将 在 本 章 中 所 学 ， 用 来 建立 存储 系统 的 很 多 概念 对 计 | 款 层 的 时 间 和 将 数据 块 返 
算 机 的 其 他 方面 也 产生 了 影响 ,包括 操 作 系 统 如 何 管理 存储 和 输入 | 加 给 请 求 者 的 时 间 。 


命中 率 : 在 访问 某 个 存储 
层次 时 命中 的 次 数 占 总 访 
问 次 数 的 比例 。 





失效 率 : 在 访问 某 个 存储 
层次 时 失效 的 次 数 占 总 访 
问 次 数 的 比例 。 





命中 时 间 : 访问 某 个 存储 
层次 所 需 的 时 间 ， 包 括 判 
断 命 中 或 失效 的 时 间 。 
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输出 ， 编 译 器 如 何 产生 代码 ， 甚 至 应 用 程序 如 何 使 用 计算 机 等 。 当 然 ， 由 于 所 有 的 程序 都 会 
et ee 抽 wa 二 
升 ， 这 意味 着 在 过 去 程序 员 可 以 把 存储 器 看 成 一 个 线性 的 随机 访问 存储 设备 ， 而 现在 必须 充 
分 理解 存储 器 的 层次 结构 才能 获得 良好 的 性 能 。 例 如 在 图 5-18 以 及 5.14 节 中 ,给 出 了 如 何 
使 矩阵 乘法 的 性 能 加 信 。 

由 于 存储 系统 对 于 性 能 非常 关键 ,计算 机 设计 者 为 此 投入 了 大 量 的 精力 ， 开 发 了 很 多 复 
杂 的 技术 来 改善 存储 系统 的 性 能 。 本 章 中 ,我 们 将 讨论 主要 的 概念 性 观点 。 为 了 保证 内 容 的 
长 度 和 复杂 度 可 控 ， 对 其 进行 了 简化 和 抽象 。 

| 重点 程序 中 同时 存在 时 间 局 部 性 和 空间 局 部 性 。 前 者 指 复 用 最 近 刚 访问 过 的 数据 的 趋 
势 ， 后 者 指 访问 与 最 近 被 访问 过 的 数据 项 地 址 空间 相近 的 数据 项 的 趋势 。 层 次 化 存储 将 最 近 
刚 访问 过 的 数据 留 在 离 处 理 器 更 近 的 存储 层次 中 ， 以 此 来 充分 利用 程序 的 时 间 局 部 性 ; 将 包 
含 了 多 个 连续 字 的 数据 块 移动 至 更 上 层 存储 ， 以 此 来 充分 利用 程序 的 空间 局 部 性 。 

图 5-3 说 明 ， 层 次 化 存储 结构 在 靠近 处 理 器 的 位 置 采 用 更 小 更 快 的 存储 技术 。 因 此 ， 如 
果 命 中 最 上 层 存储 ， 访 问 速度 会 很 快 。 如 果 失 效 ， 将 会 访问 下 一 级 存储 。 虽 然 容量 变 大 ， 但 
访问 速度 变 慢 。 如 果 命 中 率 足 够 高 ， 该 层次 化 存储 有 效 的 访问 时 间 将 非常 接近 最 上 层 存 储 
(也 是 速度 最 快 的 存储 )， 容 量 将 相当 于 最 下 层 存储 (也 是 容量 最 大 的 存储 )。 


CPU 






访问 时 间 随 距 
处 理 器 的 距离 
加 而 增加 


层次 化 存 从 储 


每 个 层次 的 存储 容量 


图 5-3 本 图 显示 了 层次 化 存储 的 结构 : 与 处 理 器 的 距离 增加 ， 存 储 容量 也 随 之 增加 。 配 以 
合适 的 操作 机 制 ， 该 结构 可 以 使 得 处 理 器 拥有 层次 1 的 访问 速度 ， 同 时 还 拥有 层次 
n 的 存储 容量 。 本 章 的 主题 就 是 如 何 管理 这 样 的 结构 。 尽 管 本 地 磁盘 通常 位 于 层次 
结构 的 底 端 ， 但 仍 有 一 些 系统 使 用 磁带 或 者 局 域 网 内 的 文件 服务 器 作为 再 下 一 层 的 
存储 


在 大 多 数 系统 中 ， 层 次 化 存储 是 真实 存在 的 。 这 意味 着 数据 只 有 先 在 第 计 1 层 出 现 ， 才 
能 在 第 i 层 出 现 。 
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5.2 存储 技术 


在 当今 的 层次 化 存储 中 有 四 种 主要 技术 。 主 存 采 用 动态 随机 访问 存储 (Dynamic Random 
Access Memory，DRAM) 器 件 实 现 ， 靠 近 处 理 器 的 存储 层次 使 用 静态 随机 访问 存储 ( Static 
Random Access Memory，SRAM) 器 件 实现 。DRAM 的 访问 速度 慢 于 SRAM， 但 它 的 每 比 
特 成 本 (cost per bit) 也 要 低 很 多 。 两 者 的 价格 差 主要 源 于 DRAM 的 每 比特 占用 面积 远 远 小 
于 SRAM， 因 而 DRAM 能 在 等 量 的 硅 上 实现 更 大 的 存储 容量 。 两 者 的 速度 差 源 于 许多 因素 ， 
主要 在 附录 A 的 A.9 节 进 行 介 绍 。 第 三 种 技术 称 为 闪存 (flash memory)。 这 种 非 易 失 性 存 
储 一 般 作 为 个 人 移动 设备 的 二 级 存储 。 第 四 种 技术 是 磁盘 (magnetic disk)， 用 来 实现 服务 器 
上 最 大 也 是 最 慢 的 存储 层次 。 在 这 些 技术 中 ， 每 比特 的 价格 和 访问 时 间 差 别 很 大 ， 如 下 表 所 
示 ， 表 中 使 用 的 是 2012 年 的 典型 数据 。 下 面 我 们 一 一 介绍 这 些 存储 技术 。 


存储 技术 单位 成 本 ( 美元 / GB，2012 年 ) 























SRAM 半 导体 存储 | 0.5~2.5ns 500~1000 
DRAM 半 导体 存储 | 50~7Ons 10~20 
闪存 半导体 存储 5 000~50 000ns 0.75~1.00 

磁盘 5 000 000~20 000 000ns 0.05~0.10 则 





5.2.1 SRAM 存储 技术 


SRAM 存储 是 一 种 存储 阵列 结构 的 简单 集成 电路 ， 通 常 有 一 个 读 写 端 口 。 虽 然 读 写 操作 
的 访问 时 间 不 同 ， 但 对 于 任意 位 置 的 数据 ，SRAM 的 访问 时 间 是 固定 的 。 

SRAM 不 需要 刷新 电路 ， 所 以 访问 时 间 可 以 和 处 理 器 的 时 钟 周期 接近 。 为 防止 读 操作 时 
言 息 丢 失 ， 典 型 的 SRAM 每 比特 采用 6 个 或 8 个 晶体 管 来 实现 。 在 待机 模式 下 ，SRAM 只 
需要 最 小 的 功率 来 保持 电荷 。 

过 去 ， 大 多 数 个 人 电脑 和 服务 器 使 用 独立 的 SRAM 芯片 作为 一 级 、 二 级 甚至 三 级 高 速 
缓存 〈cache)。 如 今 ， 感 谢 摩 尔 定律 ， 所 有 的 高 速 缓存 都 被 集成 到 了 处 理 器 芯片 上 ， 因 此 独 
立 SRAM 世 片 的 市 场 已 经 消失 。 


5.2.2 DRAM 存储 技术 


在 SRAM 中， 只 要 提供 电源 ， 数 值 会 被 一 直 保存 。 而 在 DRAM 中 ,使 用 电容 保存 电荷 
的 方式 来 存储 数据 。 采 用 单个 晶体 管 来 访问 存储 的 电荷 ， 或 者 读 取 它 ， 或 者 改写 它 。DRAM 
的 每 个 比特 仅 使 用 单个 晶体 管 来 存储 数据 ， 它 比 SRAM 的 密度 更 高 ， 每 比特 价格 更 低廉 。 
由 于 DRAM 在 单个 晶体 管 上 存储 电荷 ， 因 此 不 能 长 久保 持 数据 ， 必 须 进 行 周期 性 的 刷新 。 
与 SRAM 相 比 ， 这 也 是 该 结构 被 称 为 动态 的 原因 。 

为 了 刷新 数据 单元 ， 我 们 只 需要 读 取 其 中 的 内 容 并 再 次 写 回 ，DRAM 中 的 电荷 可 以 保 
持 几 微 秒 。 如 果 每 一 比特 数据 都 从 DRAM 中 读 出 再 被 一 一 写 回 ， 就 必须 不 停 进 行 刷 新 操作 ， 
那么 就 会 没有 时 间 进 行 正 常 的 数据 访问 。 幸 运 的 是 ，DRAM 使 用 两 级 译 码 电路 ， 这 使 我 们 
可 以 使 用 一 个 读 周期 紧 跟 一 个 写 周 期 的 方式 一 次 性 完成 整 行 刷 新 (同一 行 上 的 数据 共享 一 条 
字 线 )。 

图 5-4 中 给 出 DRAM 的 内 部 结构 ， 图 5-5 给 出 DRAM 的 密度 、 成 本 和 访问 时 间 的 变化 
趋势 。 
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图 5-4 DRAM 的 内 部 结构 。 现 代 DRAM 以 bank 的 方式 来 组 织 结 构 。 典 型 地 ，DDR3 被 划 
分 为 四 个 bank。 每 个 bank 包括 一 系列 行 (row)。 发 送 预 充电 ( Pre，pre-charge) 命 
令 可 以 打开 或 关闭 某 个 bank。 激 活 (Act，activate) 命令 发 送行 地 址 ， 并 将 对 应 某 行 
的 数据 传输 到 缓冲 区 中 。 当 某 行 写 入 缓冲 后 ， 无 论 DRAM 的 宽度 是 多 少 ( DDR3 中 
典型 的 数据 传输 宽度 为 4、8、16 位 )， 可 以 通过 发 送 后 续 列 地 址 进行 数据 传输 ， 或 
者 通过 指定 起 始 地 址 进行 块 传输 。 与 块 传输 一 样 ， 每 个 命令 都 与 时 钟 同步 


a i 新 行 / 列 的 访问 | 缓冲 行 的 平均 列 










































| 1980 64 Kibibit | 1 500 000 150 
1983 | 256 Kibibit 500 000 100 
1985 1 Mebibit 200 000 40 
1989 | 4Mebibit | 50000 40 
1992 | 16 Mebibit 15 000 30 

| 1996 | 64 Mebibit | 10000 lo | 
1998 |128 Mebibit 4 000 10 
2000 “| 256 Mebibit 1 000 7 
2004 |512 Mebibit 250 5 
2007 1 Gibibit 50 1.25 
2010 2 Gibibit 30 1 
2012 4 Gibibit 1 35 0.8 























5-5 1996 年 后 ，DRAM 容量 以 大 约 每 三 年 四 倍 的 速度 增长 ， 之 后 趋势 放 缓 。 访 问 时 间 的 
改善 已 经 放 缓 但 仍 在 持续 。 虽 然 存 储 芯 片 的 成 本 受到 其 他 因素 如 可 用 性 和 需求 的 
影响 ,但 大 体 上 仍 保持 随 密度 的 增加 而 降低 。 每 GB 的 成 本 不 随 通 货 膨 胀 进行 调整 


行 (row) 结构 有 助 于 DRAM 的 刷新 ， 也 有 助 于 改善 性 能 。 为 提高 性 能 ，DRAM 中 缓存 
了 行 数据 以 便 重复 访问 。 该 缓冲 区 有 点 类 似 SRAM : 通过 改变 地 址 ， 可 以 访问 缓冲 区 中 任意 
位 置 的 数据 ， 直 到 换行 。 这 个 功能 显著 改善 了 访问 时 间 ， 因 为 确定 行 数据 的 访问 时 间 被 大 幅 
度 降 低 。 让 芯片 变 得 更 宽 也 能 改善 存储 带宽 。 当 某 行 已 在 缓冲 区 中 ， 无论 DRAM 的 数据 宽 
度 是 多 少 (典型 的 为 4、8、16 位 )， 可 以 通过 发 送 后 续 列 地 址 进行 数据 传输 ， 或 者 通过 指定 
缓冲 区 中 的 起 始 地 址 进行 块 传输 。 

为 更 好 地 优化 与 处 理 器 的 接口 DRAM 添 加 了 时 钟 ， 因 此 被 称 为 同步 DRAM 
(Synchronous DRAM，SDRAM)。SDRAM 的 好 处 在 于 ， 使 用 时 钟 消 除了 内 存 和 处 理 器 之 
间 的 同步 问题 。 同 步 DRAM 的 速度 优势 来 自 于 ， 进 行 突 发 传输 (burst transfer) 时 无 须 指 
定额 外 地 址 位 ， 而 是 通过 时 钟 来 突 发 传输 后 续 数 据 。 速 度 最 快 的 结构 称 为 双 倍数 据 传输 率 
(Double Data Rate，DDR) SDRAM， 这 名 字 意 味 着 在 时 钟 的 上 升 沿 和 下 降 沿 都 可 以 进行 数据 
传输 。 因 此 ， 如 果 根 据 时 钟 频率 和 数据 位 宽 测算 ， 使 用 该 结构 可 以 获得 预想 中 双 倍 的 数据 带 
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宽 。 该 技术 的 最 新 架构 称 为 DDR4，DDR4-3200 DRAM 能 够 在 1.6GHz 工作 频率 下 ， 每 秒 进 
行 32 亿 次 的 数据 传输 。 

要 维持 这 样 的 高 带宽 ， 需 要 对 DRAM 的 内 部 结构 进行 精心 组 织 。DRAM 可 以 在 内 部 组 
织 对 多 个 bank 进行 读 或 写 ， 每 个 bank 对 应 各 自 的 行 缓冲 ， 而 不 仅仅 是 添加 一 个 快速 行 组 
冲 。 对 多 个 bank 发 送 一 个 地 址 允许 同时 对 这 些 bank 进行 读 或 写 。 例 如 ， 对 -4 个 bank 的 
结构 ， 只 需要 一 次 访问 时 间 ， 之 后 以 轮转 的 方式 对 这 4 个 bank 进行 访问 ， 这 样 就 获得 了 4 
倍 的 带宽 。 这 种 轮转 的 访问 方式 称 为 交叉 地 址 访问 (address interleaving ) 。 

虽然 如 iPad 这 样 的 个 人 移动 设备 ( 详 见 第 1 章 ) 都 会 使 用 单独 的 DRAM， 但 是 服务 需 
的 存储 通常 都 是 集成 在 小 电路 板 上 售卖 ， 这 种 结构 被 称 为 双 列 直 插 式 内 存 模块 (Dual Inline 
Memory Modules，DIMM)。 典 型 的 DIMM 包括 4 一 16 个 DRAM 颗粒 ， 在 服务 器 系统 中 每 
个 DRAM 颗粒 通常 被 组 织 成 8 字 节 宽度 。 一 个 使 用 了 DDR4-3200 SDRAM 的 DIMM 每 秒 能 
够 传输 8 x 3200 = 25 600 MB 的 数据 ， 这 样 的 DIMM 结构 使 用 它 的 带宽 来 命名 : PC25600。 
一 个 DIMM 可 以 有 许多 DRAM 芯片 ， 但 是 在 特定 的 传输 中 只 有 其 中 的 一 部 分 芯片 会 被 使 
用 。 因 此 需要 一 个 术语 来 表示 DIMM 中 共享 地 址 总 线 的 芯片 集合 。 为 避免 与 DRAM 部 的 
行 和 bank 混淆， 使 用 rank 来 表示 这 一 芯片 子 集 。 

| 胰 缅 国术 ; 衡量 高 速 缓存 之 外 的 存储 系统 性 能 的 方法 之 一 ， 就 是 使 用 流 式 基 准 测试 程序 
(Stream benchmark) [McCalpin, 1995]。 该 程序 主要 测量 长 向 量 操作 的 性 能 ， 这 些 操 作 没 有 时 
间 局 部 性 ， 访 问 的 数组 大 小 比 待 测 机 器 中 的 cache 容量 要 大 


5.2.3 ”闪存 


闪存 是 一 种 电 可 擦 除 的 可 编程 只 读 存 储 器 (Electrically Erasable Programmable Read-only 
Memory, EEPROM), 

与 磁盘 和 DRAM 不 同 , 但 与 其 他 EEPROM 技 
术 相 似 ， 闪 存 的 写 操 作 会 对 器 件 本 身 产 生 磨 损 。 为 应 
对 这 种 限制 ， 大 多 数 内 存 产 品 都 包括 一 个 控制 器 ， 用 
来 将 发 生 多 次 写 的 块 重新 映射 到 较 少 被 写 的 块 ， 从 而 
使 得 写 操作 尽量 分 散 。 该 技术 被 称 为 耗损 均衡 ( wear 
leveling)。 通 过 该 技术 ,个 人 移动 设备 不 太 可 能 超过 
闪存 的 写 次 数 限制 。 这 样 的 技术 虽然 降低 了 闪存 的 潜 
在 性 能 ， 但 却 是 非常 必要 的 ， 除 非 使 用 更 高 层次 的 软 
件 来 监控 损耗 情况 。 具 有 损耗 均衡 的 闪存 控制 器 也 能 
够 通过 重新 映射 ， 将 生产 制造 中 出 现 故障 的 存储 单元 
屏蔽 掉 ， 从 而 改善 产品 的 良 率 (yield)。 


5.2.4 ”磁盘 


如 图 5-6 所 示 ， 磁 性 硬盘 由 一 堆 盘 片 组 成 ， 这 些 
盘 片 绕 着 轴 心 每 分 钟 转动 5400 ~ 15000 周 。 这 些 金 








i 


图 5-6 具有 10 个 盘 片 和 读 写 头 的 


属 盘 片 的 每 一 面 都 被 磁性 记忆 材料 所 履 盖 ， 与 磁带 上 矿 盘 。 现 代 仙 可 的 直径 为 
的 磁性 材料 相似 。 为 从 硬盘 上 读 写 信息 ， 一 个 可 移动 2.5 ~ 3.5 英 寸 ， 每 个 驱动 器 


的 转 臂 正 位 于 这 些 盘面 的 上 方 ， 其 中 包括 一 个 称 为 读 通常 控制 1 ~ 2 个 盘 片 
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写 头 的 小 型 电磁 线圈 。 整 个 驱动 器 严格 密封 ， 以 控制 驱动 器 内 部 的 环境 ， 从 而 使 磁头 更 接近 
驱动 器 表面 。 

每 个 磁盘 表面 被 分 为 若干 的 同心 圆 ， 称 为 磁道 (track)。 每 个 盘面 上 通常 有 几 万 条 磁道 。 
每 条 磁道 按 序 划分 为 上 千 个 保存 信息 的 扇 区 (sector)。 扇 区 的 容量 
一 般 为 512 ~ 4096 字 节 。 记录 在 厂 介 质 上 的 内 容 依次 为 ， 户 区 号 ， | 六。 关机 上 
间隙 ， 该 扇 区 的 信息 (包括 纠 错 码 ， 详 见 5.5 节 )， 间 际 ， 下 一 个 局 
区 的 扇 区 号 ， 等 等 。 

每 个 盘面 都 配 有 一 个 磁头 ， 这 些 磁 头 互 相连 接 并 一 起 移动 。 每 
个 磁头 都 可 以 读 写 每 个 盘面 的 每 一 条 磁道 。 术 语 柱 面 (cylinder) 用 
来 表示 某 磁头 在 给 定点 能 够 访问 到 的 所 有 磁道 集合 。 

操作 系统 通过 三 步 完成 对 磁盘 的 数据 访问 。 第 一 步 ， 将 磁头 定 
位 在 正确 的 磁道 上 方 。 这 个 操作 称 为 寻 道 ( seek)， 将 磁头 移动 到 所 
需 磁 道上 方 的 时 间 称 为 寻 道 时 间 (seek time ) 。 

磁盘 制造 商 在 他 们 的 手册 中 提供 最 小 寻 道 时 间 、 最 大 寻 道 时 间 和 平均 寻 道 时 间 。 前 两 者 
很 容易 测量 ， 但 是 平均 寻 道 时 间 却 因为 与 寻 道 距离 有 关 而 难以 解释 。 工 业界 计算 平均 寻 道 时 
间 的 方法 通常 是 : 对 所 有 可 能 的 寻 道 时 间 求 和 并 计算 平均 值 ，( 这 样 计算 出 来 的 ) 平均 寻 道 时 
间 通 常 为 3ms ~~ 13ms。 但 是 ， 由 于 应 用 及 磁盘 请 求 调度 策略 的 不 同 ， 同 时 磁盘 访问 存在 局 
部 性 ， 事 实 上 平均 寻 道 时 间 可 能 仅 有 上 述 数值 的 25% ~ 33%。 如 果 考 虑 到 对 同一 个 文件 做 
连续 访问 ， 且 操作 系统 也 会 尽量 对 这 样 的 访问 进行 集中 调度 ， 那 么 局 部 性 还 会 增加 。 

一 旦 磁头 到 达 正 确 的 磁道 ， 我 们 需要 等 待 所 需 扇 区 旋转 到 读 写 
磁头 下 ， 这 段 时 间 被 称 为 旋转 延 时 (rotational latency 或 rotational 人 人 
delay)。 获 得 所 需 信息 的 平均 延 时 为 磁盘 旋转 半 周 的 时 间 。 磁 盘 以 “| 入 上 上 所 家 局 区 次 关 芭 计 写 
5400 转 /分 钟 (Rotation Per Minute，RPM) 一 15000 转 /分 钟 的 速 “| 磁头 下 的 时 间 。 通 常 假 设 
度 旋转 ， 当 转速 为 5400 转 /分 钟 时 ,平均 旋转 延 时 为 : 为 旋转 半 周 的 时 间 。 

0.5 转 


5400( 转 /分 钟 ) 
0.5 转 


”5400( 转 /分 钟 )/ 60( 秒 / 分钟) 
= 0.0056 秒 
= 5.6 毫秒 
磁盘 访问 的 最 后 一 部 分 是 传输 时 间 (transfer time)， 即 传输 数据 块 (block) 的 时 间 。 传 
输 时 间 是 扇 区 大 小 、 旋 转速 度 和 磁道 记录 密度 的 函数 。2012 年 ， 磁 盘 的 传输 速率 大 约 在 
100 ~ 200MB/s。 
复杂 的 是 ， 大 多 数 磁盘 控制 器 内 置 一 个 缓存 ， 用 来 保存 刚刚 读 取 过 的 扇 区 的 数据 。 从 该 
缓存 中 读 取 数据 的 传输 速率 会 高 得 多 ，2012 年 达到 了 750MB/s ( 即 6Gbit/s ) 。 
现在 ， 块 号 的 位 置 不 能 再 赁 直觉 了 。 上 述 的 扇 区 - 磁道 - 磁 柱 模型 有 如 下 假设 : 相 邻 的 
数据 块 在 同一 磁道 上 ;由 于 无 须 寻 道 时 间 ， 在 同一 磁 柱 上 的 数据 块 的 访问 开销 更 少 ; 不 同 的 
磁道 与 磁头 的 距离 也 不 同 。 如 此 变化 的 原因 在 于 磁盘 接口 的 层次 在 提升 。 为 加 速 磁盘 的 串 行 
传输 速度 ， 这 些 高 层次 接口 将 磁盘 组 织 得 更 像 磁带 ， 而 不 是 随机 访问 设备 。 逻 辑 块 〈 沿 圆周 ) 
以 弯曲 的 方式 排列 在 盘 片 表面 ， 尽 可 能 使 每 个 扁 区 的 记录 密度 相同 ， 以 获得 最 佳 性 能 。 因 


扇 区 : 磁盘 磁道 上 的 一 段 ， 
户 区 是 读 写 磁盘 信息 的 最 
小 单位 。 





寻 道 : 将 读 写 头 定 位 到 磁 
盘 上 正确 的 磁道 上 方 的 
过 程 。 








平均 旋转 延 时 = 
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而 ,顺序 的 数据 块 可 能 会 在 不 同 的 磁道 上 。 

综 上 所 述 ， 磁 盘 与 半导体 存储 器 件 的 两 个 主要 区 别 是 : 由 于 存在 机 械 装 置 ， 磁 盘 的 访问 
速度 更 慢 。 例 如 ， 闪 存 的 速度 是 磁盘 的 1000 倍 ，DRAM 是 磁盘 的 100 000 倍 。 但 是 ， 由 于 
可 以 最 低 的 成 本 获得 非常 高 的 存储 容量 ， 磁 盘 的 单位 成 本 更 低 ， 一 般 便宜 10 到 100 倍 。 与 
闪存 相同 ， 磁 盘 也 是 非 易 失 性 存储 。 但 是 与 闪存 不 同 的 是 ， 磁 盘 没 有 写 损 耗 问 题 。 不 过 闪存 
更 坚固 ， 因 此 更 适合 个 人 移动 设备 。 


5.3 cache 基础 


在 上 文 的 图 书馆 例子 中 ， 书 桌 扮演 了 cache (高 速 缓存 ) 的 角色 : | 缓存 ， 一 个 隐藏 或 者 存储 
一 个 存储 考试 所 需 信 息 (书籍) 的 安全 场所 。 在 第 一 台 商用 计算 机 中 ， | 信息 的 安全 场所 。 
cache 就 被 用 来 表示 位 于 处 理 器 和 主 存 之 间 的 特殊 存储 层次 。 第 4 章 | Ap 
数据 通路 中 的 存储 都 可 以 简单 地 替换 成 cache。 如 今 ， 虽然 这 些 仍 是 | yr cowege siinion, 1985 
cache 这 个 词 的 主要 使 用 场合 ,但 它 也 被 用 来 表示 利用 访问 局 部 性 进行 
管理 的 其 他 存储 。 早 在 20 世纪 60 年 代 早 期 ，cache 就 第 一 次 出 现在 计算 机 研究 中 ， 随 后 又 出 
现在 计算 机 产品 中 。 如 今 ， 从 服务 器 到 低 功 耗 嵌 人 式 处 理 器 ， 每 一 台 通 用 计算 机 都 包含 cache。 
在 这 一 节 中 ， 我 们 从 一 个 简单 的 cache 开始 ， 处 理 器 每 次 请 求 为 一 个 字 ， 且 每 个 数据 块 
由 单个 字 组 成 (已 经 非常 熟悉 cache 基础 理论 的 读者 可 以 直接 转 到 5.4 节 )。 图 5-7 中 给 出 了 
这 样 的 简单 cache 在 响应 数据 访问 请 求 前 后 的 情况 ， 且 被 访问 的 数据 初始 时 并 不 在 cache 中 。 
在 响应 请 求 前 ， 该 cache 中 包含 了 最 近 访 问 的 数据 集合 X!，X，,，，…，X,-1， 处 理 器 请 求 的 字 
X， 并 不 在 cache 中 。 这 个 请 求 会 产生 一 次 失效 ， 字 X, 从 内 存 取 到 cache 中 。 





a ) 访问 X, 之 前 b ) 访问 X, 之 后 


图 5-7 访问 字 X, 前 后 的 cache， 且 初始 时 X, 不 在 cache 中 。 本 次 访问 引起 了 cache 失效 ， 
并 强制 将 X, 从 内 存 中 取出 并 插入 cache 中 


在 对 图 5-7 所 述 场景 进行 分 析 时 ， 有 两 个 问题 需要 回答 : 如 何 知道 数据 项 是 否 存 在 于 
cache 中 ? 进一步 来 说 ， 如 果 知 道 数据 项 存在 于 cache 中 ， 又 该 如 何 找到 这 个 数据 项 呢 ? 这 
两 个 答案 是 有 关联 的 。 如 果 每 个 字 能 够 位 于 cache 中 的 确定 位 置 ， 只 要 它 在 cache 中 ， 那 么 
找到 它 则 是 很 简单 的 。 在 cache 中 为 每 个 存储 中 的 数据 字 进 行 位 置 分 配 的 最 简单 方式 ， 就 是 
基于 它 在 存储 中 的 地 址 来 分 配 cache 中 的 位 置 。 这 种 cache 结构 被 称 A 
为 直接 映射 (direct mapped)， 这 是 因为 每 个 存储 地 址 都 被 直接 映射 | .he 欠 箱 ， 鞠 让 森 下 兰 
到 cache 中 的 确定 位 置 。 直 接 映射 cache 中 ， 存储 地 址 和 cache 位 置 “| 储 地 址 都 映射 到 cache 中 
之 间 的 典型 映射 关系 通常 都 非常 简单 。 例 如 ， 几 乎 所 有 的 直接 映射 ”| 的 确定 位 置 。 
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cache 使 用 下 述 映射 方法 来 找到 对 应 的 数据 块 : 


( 块 地 址 ) mod (cache 中 的 数据 块 数量 ) 
如 果 cache 人 2 a 则 取 模 运算 很 简单 ， 只 需要 取 地 址 的 低 入 位 即 可 。 其 中 
N= logs(cache 的 块 数 )。 一 个 8 个 数据 块 的 cache 使 用 地 址 的 最 低 3 位 来 查找 。 例 如 ， 
图 5-8 中 给 ee ee ti py 
射 cache 中 的 位 置 11。( 001; ) 和 位 置 So ( 101; )。 
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| 00101 01001 01101 10001 10101 11001 
Memory 
图 5-8 一 个 8 个 字 的 直接 映射 cache，0 到 31 之 间 的 存储 字 地 址 映射 到 相同 的 cache 位 置 
上 。 由 于 该 cache 中 有 8 个 字 ， 地 址 X 对 应 该 直接 映射 cache 的 位 置 为 X mod 8。 
也 就 是 说 ， 低 3 (log; 8 ) 位 被 用 来 作为 cache 的 索引 (index)。 因 此 ， 地 址 00001;、 
01001，、10001，。 和 11001; 都 映射 到 cache 的 第 001; 块 ， 同 时 ， 地 址 00101;、 
01101:、10101: 和 11101; 都 映射 到 cache 的 第 101, 块 


由 于 每 个 cache 块 中 能 够 保存 不 同 存储 地 址 的 内 容 ， 如 何 知 | 标签 ,存储 层次 中 的 表 项 
道 对 应 请 求 的 数据 字 是 否 在 cache 中 呢 ? 回答 这 个 问题 前 ， 需 要 在 。 | 位 ， 用 来 记录 对 应 请 求 字 
cache 中 添加 一 组 标签 ( tag)。 这 些 标签 保存 了 所 需 的 地 址 信息 ， 这 ps 2 
些 信息 用 来 确定 请 求 字 是 否 在 cache 中 。 标 签 中 只 需要 保存 地 址 的 | 该 友 储 靶 次 中 
高 位 部 分 ， 这 部 分 地 址 不 会 用 来 作为 cache 的 索引 。 例 如 ， 图 5-8 
中 ， 只 需要 使 用 5 位 地 址 中 的 高 2 位 作为 标签 ， 低 3 位 作为 地 址 的 索引 字段 用 来 选择 数据 
块 。 按 照 定 义 ， 对 于 任何 可 以 放 和 人 相同 cache 块 中 的 数据 字 ， 其 地 址 的 索引 域 必定 是 对 应 的 
cache 块 号 ， 因 此 标签 中 无 须 记 录 这 些 宛 余 的 索引 。 

同时 ， 还 需要 一 种 方法 能 够 判断 cache 中 的 数据 块 中 是 否 保存 | 有 效 位 ， 存 储 层次 中 的 表 
有 效 信息 。 例 如 ， 当 处 理 器 启动 时 ，cache 中 没有 有 效 数 据 ， 标 签 位 “| 项 位 ， 用 来 表示 该 层次 的 
都 是 无 意义 的 。 即 使 在 执行 了 许多 指令 后 ，cache 中 的 一 些 表 项 内 容 
仍 可 能 为 空 ， 如 图 5-7。 因 此 ， 对 于 这 些 表 项 的 标签 可 以 不 考虑 。 最 : 
常用 的 方法 就 是 添加 有 效 位 (valid bit)， 用 来 表示 该 表 项 中 是 否 保存 
有 效 的 数据 。 如 果 该 位 未 被 置 位 ， 则 对 应 的 数据 块 不 能 使 用 。 
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本 节 的 后 续 部 分 将 会 重点 阐述 cache 如 何 处 理 读 操 作 。 通 常 ， 由 于 读 操 作 无 须 改变 
cache 内 容 ， 因 此 处 理 读 操作 比 处 理 写 操作 要 简单 些 。 在 对 读 操 作 和 cache 失效 处 理 的 基本 
原理 进行 分 析 后 ， 我 们 将 会 详细 讲解 cache 的 写 操 作 和 真实 计算 机 中 的 cache 设计 。 

| 熙 大 缓存 可 能 是 才 测 技术 中 最 重要 的 例子 。 该 技术 依赖 于 局 部 性 原理 ， 尝 试 在 更 高 
的 存储 层次 中 找到 所 需 的 数据 ， 并 提供 了 一 套 机 制 ， 保 证 当 预 测 错 误 时 能 够 从 下 一 级 存储 中 
找到 并 使 用 正确 的 数据 。 现 代 计 算 机 的 cache 预测 命中 率 通常 在 95% 以 上 ( 详 见 图 5-46 )。 


5.3.1 cache 访问 


下 面 是 对 一 个 大 小 为 8 个 数据 块 的 空 cache 进行 9 次 存储 访问 的 操作 序列 ， 包 括 每 次 存 
储 访问 的 具体 操作 。 图 5-9 中 给 出 每 次 失效 后 cache 中 的 内 容 变化 。 由 于 该 cache 中 有 8 个 
数据 块 ， 地 址 的 低 3 位 用 来 表示 数据 块 号 。 


访 存 地 址 访 存 地 址 cache 命 中 分 配 的 cache 数 据 块 
( 十 进 制 表示 ) ( 二 进 制 表示 ) 或 失效 ( 存放 数据 的 位 置 ) 


2 10110 失效 ( 图 5-9b ) (10110, mod 8) = 110 















































2 2 2 

26 11010, 失效 ( 图 5-9c ) (11010, mod 8) = 010, 

22 10110, 命中 (10110, mod 8) = 110, 

| 26 11010, 命中 (11010, mod 8) = 010, 
16 10000, | 失效 ( 图 5-9d ) (10000, mod 8) = 000, 

3 00011, 失效 ( 图 5-9e ) (00011, mod 8) =011, 

16 10000, 命中 (10000, mod 8) = 000， 

18 40010; | 失效 (图 5-9f ) (10010, mod 8) = 010， 

16 10000, 命中 (1000( mod 8) = O00( 








Pe 


a ) 上 电 后 的 cache 初 始 状 态 b ) 地 址 ( 10110, ) 访问 失效 处 理 后 





图 5-9 每 次 访问 请 求 失效 后 cache 中 的 内 容 ， 其 中 索引 和 标签 使 用 二 进 制 表示 。cache 初始 
化 为 空 ， 所 有 有 效 位 (V) 为 无 效 (N)。 处 理 器 按照 下 列 地 址 发 出 请 求 : 10110;( 失 
效 )，11010: (失效 )，10110; (命中 )，11010; (命中 )，10000; (失效 )，00011， (失效)， 
10000:〈 命 中 )，10010; (失效 )，10000, (命中 )。 图 中 给 出 了 该 访 存 序列 每 次 失效 处 
理 后 cache 的 情况 。 当 地 址 10010;( 18 ) 访问 结束 后 ， 地 址 11010; ( 26 ) 对 应 的 数 
据 项 被 替换 ， 后续 对 地 址 11010; 的 访问 将 引发 失效 。 数 据 块 的 标签 位 仅 记录 地 址 的 
高 位 部 分 。 存 储 地 址 中 包含 有 cache 数据 块 号 i、 标签 位 j， 则 对 于 该 cache 存储 地 
址 为 7x8 + 或 者 等 同 于 标签 位 j 与 索引 位 字 的 拼接 。 例 如 ， 上 述 的 cache f 中 ， 索 
引 010; 拼接 上 标签 10;， 对 应 地 址 为 10010， 
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e ) 地 址 ( 00011, ) 访问 失效 处 理 后 f) 地 址 ( 10010, ) 访问 失效 处 理 后 
图 5-9 ( 续 ) 


由 于 cache 初始 为 空 ， 许 多 地 址 的 首次 访问 都 为 失效 。 图 5-9 中 描述 了 每 一 次 访 存 后 
的 具体 操作 。 在 第 8 次 访 存 后 产生 了 数据 块 的 地 址 冲突 。 地 址 18 ( 10010; ) 的 数据 字 应 放 
入 cache 的 数据 块 2 (010;) 中 。 因 此 ， 它 需要 将 已 经 在 数据 块 2 中 的 数据 ， 也 就 是 地 址 26 
( 11010; ) 的 数据 替换 掉 。 这 个 策略 使 得 cache 可 以 有 效 利用 时 间 局 部 性 : 使 用 最 近 访 问 的 数 
据 替 换 最 近 不 常 访问 的 数据 。 

这 种 情况 类 似 于 ， 从 书架 上 取 下 一 本 所 需 书 籍 ， 但 你 的 书桌 上 没有 多 余 的 地 方 可 放 ， 必 
须 将 一 些 已 经 在 书桌 上 的 书 重 新 放 回 书架 。 在 直接 映射 cache 中 ， 只 有 一 个 位 置 来 存放 最 新 
访问 的 数据 项 ， 因 此 替换 项 也 只 有 一 个 选择 。 

对 于 每 一 个 可 能 的 地 址 ， 都 需要 在 cache 中 进行 如 下 查找 : 使 用 地 址 低位 找到 对 应 的 唯 
一 cache 数据 块 。 图 5-10 显示 了 访 存 地 址 被 划分 为 : 

e 标签 字段 : 用 来 和 cache 中 存放 数据 的 标签 位 进行 比较 。 

e 索引 字段 : 用 来 选择 数据 块 。 

cache 数据 块 的 索引 和 标签 唯一 确定 了 应 放 于 该 块 的 数据 字 的 存储 地 址 。 由 于 索引 字段 
被 用 来 作为 访问 cache 的 地 址 ， 而 一 个 位 的 二 进 制 数 有 2" 个 数值 ， 因 此 直接 映射 cache 的 
数据 块 总 数 应 为 2 的 震 。 数 据 字 的 地 址 是 4 字 节 对 齐 的 ， 每 个 地 址 的 最 低 两 位 用 来 表示 对 应 
的 字 节 地 址 。 因 此 ， 如 果 存 储 都 是 字 对 齐 的 ， 那 么 在 访问 数据 字 时 地 址 的 最 低 两 位 可 以 忽略 
不 计 。 本 节 中 ,假设 存储 中 的 数据 都 是 对 齐 存放 ， 在 “详细 阐述 ”中 会 讨论 如 何 处 理 cache 
的 非 对 齐 访问 。 

访问 cache 所 需 的 所 有 数据 ， 是 cache 容量 和 存储 地 址 大 小 的 函数 。 这 是 因为 cache 中 
既 保 存 了 数据 ， 也 保存 了 标签 。 其 中 ， 单 个 数据 块 的 大 小 是 4 字 节 (单字 )， 但 是 通常 都 会 比 
它 大 。 对 于 如 下 情况 : 
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e 64 位 地 址 。 

e@ 直接 映射 cache。 

e cache 大 小 为 2" 数据 块 ， 因 此 索引 字段 为 n 位 。 

e 数据 块 大 小 为 2” 个 单字 (2”” 字 节 )， 因 此 在 单个 数据 块 中 使 用 m 位 来 索引 单字 ,使 
用 地 址 的 最 低 2 位 来 索引 字 节 。 


地 址 ( 按 位 显示 ) 
68i62 =» lot2a1l :2 1 


Index 








图 5-10 对 于 上 述 cache， 地 址 低位 用 来 选择 cache 的 数据 块 ， 该 数据 块 包括 数据 和 标签 。 
上 述 cache 容量 为 1024 个 单字 (4KiB)。 在 本 章 中 ,我 们 假设 使 用 64 位 地 址 。 
cache 中 的 标签 需要 与 地 址 的 高 位 进行 比较 ， 以 判断 请 求 所 需 的 数据 是 否 在 cache 
中 。 由 于 cache 容量 为 2" (或 1024 ) 单字 ， 而 每 个 数据 块 大 小 为 单字 ， 因 此 使 用 
10 位 地 址 来 索引 cache， 剩 余 的 64-10-2 = 52 位 与 标签 进行 比较 。 如 果 某 数据 块 
的 标签 与 地 址 的 高 52 位 相等 ， 同 时 对 应 的 有 效 位 有 效 ， 则 该 访 存 请 求 在 cache 中 
命中 ， 处 理 器 所 需 数据 将 被 读 出 。 否 则 ， 出 现 cache 失效 


标签 字段 的 大 小 为 : 
64— (nt+m+2 ) 
该 直接 映射 cache 的 总 容量 
2"X (单个 数据 块 容量 + 标签 字段 大 小 + 有效 位 大 小 ) 
由 于 数据 块 的 大 小 为 2 单字 (2”” 位 )， 使 用 1 位 来 表示 有 效 位 ， 因 此 以 上 cache 的 容量 大 
小 为 : 
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2” x (2"X32+(64-n—m-—2)+1)=2"x(2™ x 32+63—n-m) 
虽然 这 是 cache 的 真实 容量 ,但 cache 命名 规范 中 一 般 只 考虑 数据 的 大 小 ， 并 不 考虑 标签 和 
有 效 位 的 大 小 。 因 此 ， 图 5-10 中 的 cache 被 称 为 4KiB cache。 


| 例题 | cache 的 容量 和 
假设 64 位 的 存储 地 址 ， 对 于 直接 映射 cache， 如 果 数 据 大 小 为 16KiB ， 每 个 数据 块 为 4 

字 大 小 。 该 cache 容量 多 大 (用 bit 表示 ) ? 

| 答案 | 已 知 16KiB 为 4096 ( 22 ) 个 字 。 如 果 单 个 数据 块 的 大 小 为 4 字 ， 则 共有 1024 (2") 

个 数据 块 。 每 个 数据 块 有 4 x 32 或 128 位 数据 ， 并 加 上 标签 和 有 效 位 ， 其 中 标签 大 小 为 (64- 

10-2-2 ) 位 。 因 此 ， 完 整 的 cache 容量 为 : 

20x(4x32+(64-10-2-2)+1)=20x179=179Kib 
或 数据 大 小 为 16KiB 的 cache 实际 总 容量 为 22.4KiB。 对 于 cache 来 说 ， 总 容量 是 用 于 数据 
存储 的 容量 的 1.4 倍 。 











| 例题 | 地 址 映射 至 多 字 大 小 的 cache 块 a 
假设 该 cache 有 64 个 基本 块 ， 每 个 基本 块 的 大 小 为 16 字 节 。 对 于 字 节 地 址 1200， 会 映 
射 到 哪个 基本 块 呢 ? 
| 答案 | 据 5.3 节 开始 处 的 公式 ， 块 号 的 确定 是 : 
( 块 地 址 ) mod (cache 中 的 数据 块 数量 ) 





其 中 ， 
” 字 节 地 址 
基地 址 A- 每 区 中 的 字 节 吉 
注意 ， 这 个 块 地 址 中 包含 了 所 有 从 ( [A] x 每 块 字 节 数 ) 到 ([A] x 每 块 字 节 数 + (每 块 字 节 
数 -1)) 的 地 址 。( 注 : [A] 表示 对 A 进行 取 整 。) 
因此 ， 如 果 每 块 中 的 字 节 数 为 16， 则 字 节 地 址 1200 对 应 的 块 地 址 为 








es 75 
16 
该 块 地 址 映射 到 的 cache 块 号 为 (75 mod 64 ) = 11。 事 实 上， 从 1200 到 1215 的 字 节 地 
址 都 映射 到 这 个 块 号 。 — 


容量 更 大 的 块 可 以 通过 挖掘 空间 局 部 性 来 降低 失效 率 。 图 5-11 中 ， 随 着 块 大 小 的 增长 ， 
失效 率 通 常 都 在 下 降 。 如 果 单 个 块 大 小 占 cache 容量 的 比例 增加 到 一 定 程度 ， 失 效率 最 终 会 
随 之 上 升 。 这 是 因为 cache 中 可 存放 的 块 数 变 少 了 。 最 终 ， 某 个 数据 块 会 在 它 的 大 量 数据 被 
访问 之 前 就 被 挤 出 cache。 男 一 方面 ， 对 于 一 个 较 大 的 数据 块 ， 块 中 各 字 之 间 的 空间 局 部 性 
也 会 随 之 降低 ， 失 效率 降低 带 来 的 好 处 也 就 随 之 减少 。 

增 大 块 容 量 时 ， 另 一 个 更 严重 的 问题 是 失效 损失 。 失 效 损 失 是 从 下 一 级 存储 获得 数据 块 
并 加 载 到 cache 的 时 间 。 该 时 间 分 为 两 部 分 : 访问 命中 的 时 间 和 数据 的 传输 时 间 。 很 明显 ， 
除非 我 们 改变 存储 系统 ， 否 则 传输 时 间 (也 可 以 说 是 失效 损失 ) 将 随 着 数据 块 容量 的 增 大 而 
增 大 。 而 且 ， 随 着 数据 块 容量 的 增 大 ， 失 效率 改善 带 来 的 收益 开始 降低 。 最 终 的 结果 是 ， 失 
效 损失 增 大 引起 的 性 能 下 降 超 过 了 失效 率 降低 带 来 的 收益 ，cache 性 能 当然 随 之 下 降 。 当 然 ， 
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如 果 能 设计 出 高 效 的 传输 大 数据 块 的 存储 ， 就 可 以 增 大 数据 块 的 容量 ， 并 得 到 更 大 的 性 能 改 
善 。 我 们 将 在 下 一 节 讨 论 这 个 问题 。 





16 32 64 128 256 
块 大 小 
图 5-11 失效 率 与 块 容量 。 注 意 ， 如 果 相 对 于 cache 大 小 ， 块 容量 过 大 ， 实 际 上 失效 率 会 逐 
渐 上 升 。 图 中 的 每 条 折线 表示 不 同 容量 的 cache (本 图 与 相 联 度 无 关 ， 该 内 容 之 后 
讨论 )。 不 走运 的 是 ， 如 果 包 含 了 块 容 量 ， 运 行 SPEC CPU2000 的 时 间 过 长 ， 因 此 
图 上 这 些 数据 都 是 基于 SPEC92 的 


培 希 羡 述 虽然 对 于 大 数据 块 很 难 解决 失效 损失 中 的 长 延迟 问题 ， 但 可 以 隐藏 部 分 传输 
时 间 来 有 效 地 减少 失效 损失 。 最 早 采 用 该 思想 的 技术 称 为 “提早 重启 ”( early restart)， 即 只 
要 数据 块 中 的 所 需 数据 返回 来 ， 就 继续 执行 ， 无 须 等 到 该 数据 块 中 所 有 数据 都 完成 传输 。 许 
多 处 理 器 将 该 技术 用 于 指令 访问 ， 效 果 显 著 。 取 指 一 般 都 是 顺序 的 ， 因 此 ， 如 果 存 储 系统 
能 够 每 周期 传输 一 个 字 ， 且 能 及 时 传输 新 指令 字 ， 那么 当 所 需 数据 返回 时 处 理 器 就 能 重启 操 
作 。 对 于 数据 cache， 该 技术 通常 效果 不 好 。 这 是 因为 所 需 数据 的 访问 顺序 很 难 预测 ， 在 数 
据 传 输 完成 之 前 ,下 一 个 所 需 数据 来 自 另 一 个 数据 块 的 概率 比较 大 。 如 果 由 于 当前 数据 传输 
未 完成 导致 处 理 器 不 能 继续 访问 数据 cache， 那 么 流水 线 就 必须 停顿 。 

另 一 种 更 为 复杂 的 方案 是 ， 重 新 组 织 存储 ， 让 所 需 的 数据 首先 从 存储 传输 到 cache 中 ， 
再 继续 传输 数据 块 中 的 剩余 部 分 。 从 所 需 数 据 之 后 的 地 址 开始 ， 直 到 该 数据 块 的 开头 。 该 技 
术 被 称 为 请 求 字 先 行 (requested word first) 或 关键 字 先 行 (critical word first)， 比 “提早 重启 ” 
技术 性 能 稍 好 。 但 与 “提早 重启 ”技术 相同 ， 会 因为 同样 的 问题 而 受到 限制 。 


5.3.2 处理 cache 失效 


在 考虑 真实 系统 中 的 cache 之 前 ， 讨 论 一 下 控制 单元 如 何 处 理 | cache 失效 ， 由 于 所 需 数 据 
cache 失效 (5.9 节 将 详细 描述 cache 控制 器 )。 控 制 单元 必须 能 够 “| 不 在 cache 中 ， 对 cache 发 
检测 到 失效 ， 然 后 通过 从 内 存 (或 者 ， 按 照 我 们 的 理解 ， 从 下 一 级 | 出 的 数据 请 求 不 能 被 响应 。 
cache) 中 取得 所 需 的 数据 来 处 理 失效 。 如 果 cache 命中 ,计算 机 将 
继续 使 用 数据 ， 就 像 什 么 都 没有 发 生 过 一 样 。 

当 cache 命中 时 ， 对 处 理 器 的 控制 逻辑 进行 修改 并 没有 那么 重要 。 不 过 ，cache 失效 时 ， 
则 需要 一 些 额外 的 工作 。cache 的 失效 处 理 与 两 部 分 协同 工作 : 一 部 分 是 处 理 器 的 控制 单元 ; 
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另 一 部 分 是 单独 的 控制 器 ， 用 来 初始 化 内 存 访问 和 重 填 cache。cache 的 失效 处 理会 引发 流水 
线 的 停顿 (具体 见 第 4 章 )， 这 与 例外 或 者 中 断 处 理 不 同 ， 后 者 需要 保存 所 有 寄存 器 的 状态 。 
cache 失效 将 会 停顿 整个 处 理 器 来 等 待 内 存 (返回 数据 )， 特 别 是 冻结 临时 寄存 器 和 程序 员 可 
见 寄存 器 的 内 容 。 更 为 复杂 的 是 ， 乱 序 执行 的 处 理 器 在 等 待 cache 失效 处 理 时 允许 继续 执行 
指令 。 不 过 ， 本 节 中 的 按 序 处 理 器 都 假设 在 cache 失效 时 停顿 流水 线 。 

进一步 仔细 考虑 如 何 处 理 指令 失效 ， 相 同 的 方法 可 以 方便 地 扩展 到 处 理 数据 失效 。 如 
果 一 条 指令 访问 引发 了 失效 ， 那 么 指令 寄存 器 的 内 容 将 被 置 为 无 效 。 为 了 将 正确 的 指令 写 人 
cache 中 ， 必 须 能 够 对 下 一 级 存储 发 出 读 操作 。 由 于 程序 计数 器 是 在 执行 的 第 一 个 时 钟 周 期 
递增 ， 引 发 指令 cache 失效 的 指令 地 址 就 等 于 程序 计数 器 的 数值 减 4。 一 旦 确定 了 地 址 ， 就 
需要 指导 主 存 进行 读 操 作 。 等 待 内 存 响 应 (因为 该 访问 将 耗费 多 个 时 钟 周 期 )， 然 后 将 含有 所 
需 指 令 的 (指令 ) 字 写 入 指令 cache 中 。 

一 旦 发 生 指 令 cache 失效 ， 可 以 定义 如 下 处 理 步 又 : 

1. 将 PC 的 原始 值 (当前 PC-4 ) 发 送 到 内 存 。 

2. 对 主 存 进行 读 操作 ， 等 待 主 存 完成 本 次 访问 。 

3. 写 cache 表 项 ， 将 从 内 存 获得 的 数据 写 人 到 该 表 项 的 数据 部 分 ， 将 地 址 的 高 位 来自 
于 ALU) 写 人 标签 字段 ， 并 将 有 效 位 置 为 有 效 。 

4. 重启 指令 执行 。 这 将 会 重新 取 指 ， 本 次 取 指 将 在 指令 cache 中 命中 。 
与 上 述 相 比 ， 数 据 访 问 的 cache 控制 本 质 上 是 相同 的 。 一 旦 失效 ,简单 地 暂停 处 理 器 ， 直 到 
内 存 返 回 数据 。 


5.3.3 ”处 理 写 操作 


写 操作 有 一 些 不 同 。 例 如 ， 对 于 存储 指令 ， 只 把 数据 写 人 数据 | 写 穿 透 或 写 直 达 ， 一 种 
cache (不 需要 改变 主 存 )。 完 成 写 人 cache 的 操作 后 ， 主 存 中 的 数 | 写 策略 。 写 操作 总 是 同 
据 将 和 cache 中 的 数据 不 同 。 在 这 种 情况 下 ，cache 和 主 存 称 为 不 一 | 时 更 新 cache 和 下 一 级 存 

a , 3 储 ， 保 证 两 者 之 间 的 数据 
致 (inconsistent)。 保 持 cache 和 主 存 一 致 的 最 简单 方法 是 ， 总 是 将 | 一 芷 。 
数据 写 回 内 存 和 cache。 这 样 的 写 策略 称 为 写 穿 透 或 者 写 直达 (write- 
through ) 。 

写 操作 的 另 一 个 关键 点 是 写 失效 的 处 理 。 先 从 主 存 中 取 来 对 应 数据 块 中 的 数据 ， 之 后 
将 其 写 人 cache 中 ， 履 盖 引 发 失效 的 数据 块 中 的 数据 。 同 时 ， 也 会 使 用 完整 地 址 将 数据 写 回 
主 存 。 

虽然 上 述 设 计 方 案 能 够 简单 地 处 理 写 操作 ， 但 是 它 的 性 能 不 佳 。 基 于 写 穿 透 策 略 ， 每 次 
的 写 操作 都 会 引起 写 主 存 的 操作 。 这 些 写 操作 延 时 很 长 ， 至 少 100 个 处 理 器 时 钟 周 期 ， 这 会 
大 大 降低 处 理 器 的 性 能 。 例 如 ,假设 10% 的 指令 是 存储 指令 ( store)。 如 果 不 发 生 cache 失 
效 ， 处 理 器 的 CPI 为 1。 每 次 写 操作 需要 100 个 处 理 器 时 钟 周期 。 这 会 导致 CPI 变 为 
1.0+100 x 10% = 11， 性 能 降低 为 原来 的 1/10。 

解决 这 个 问题 的 方法 之 一 是 使 用 写 缓冲 〈 write buffer)。 写 缓冲 | 写 缓冲 ， 一 个 保存 等 待 写 
中 保存 着 等 待 写 回 主 存 的 数据 。 数 据 写 入 cache 的 同时 也 写 和 人 写 缓 ”| 入 主 存 的 数据 的 队列 。 
冲 中 ， 之 后 处 理 器 继续 执行 。 当 写 人 主 存 的 操作 完成 后 ， 写 缓冲 中 
的 表 项 将 被 释放 。 如 果 写 缓冲 满 了 ， 处 理 器 必须 停顿 流水 线 直 到 写 缓冲 中 出 现 空闲 表 项 。 当 
然 ， 如 果 主 存 写 操作 的 速率 小 于 处 理 器 产生 写 操作 的 速率 ， 多 大 容量 的 缓冲 都 无 济 于 事 。 因 


为 写 操作 的 产生 速度 远 远 快 于 主 存 系统 的 处 理 速度 。 

即使 写 操作 的 产生 速度 小 于 主 存 的 处 理 速度 ， 还 是 会 产生 停顿 。 通 常 ， 当 写 操作 成 簇 
( burst) 发 生 时 ,会 发 生 上 述 现象 。 为 减少 这 样 的 停顿 发 生 ， 处 理 器 通常 会 增多 写 缓冲 的 表 
项 数 。 

相对 于 写 穿 透 或 者 写 直达 策略 ， 另 一 种 写 策略 称 为 写 返 回 | 写 返 回 ， 一 种 写 策略 。 
( write-back)。 基 于 写 返回 策略 ， 当 发 生 写 操作 时 ， 新 值 只 被 写 人 处 理 写 操作 时 ， 只 更 新 
cache 中 ， 被 改写 的 数据 块 在 替换 出 cache 时 才 被 写 到 下 一 级 存储 。 | So， > 人 二 省 全 要 
写 返 回 策 略 能 够 改善 性 能 ， 尤 其 是 当 处 理 器 写 操作 的 产生 速度 等 于 | 时 ， 再 将 更 新 后 的 数据 闫 
或 大 于 主 存 的 处 理 速度 时 。 不 过 ， 写 返回 策略 的 实现 比 写 穿 透 策 略 | 写 入 下 一 级 存储 。 
要 复杂 得 多 。 

在 本 章 的 后 续 部 分 中 ， 将 会 阐述 真实 处 理 器 中 的 cache， 详 细 说 明 它们 是 如 何 处 理 读 操 
作 和 写 操作 的 。 在 5.8 节 中 ， 还 会 更 加 详细 地 描述 写 操作 的 处 理 。 

| 详细 阐述 | 相对 于 读 操作 来 说 ， 写 操作 为 cache 引入 了 更 多 的 复杂 性 。 在 此 讨论 其 中 的 
两 点 : 写 失 效 策 略 和 写 返 回 策略 cache 中 写 操作 的 高 效 实现 。 

考虑 写 穿 透 cache 中 的 写 失 效 处 理 。 最 常见 的 策略 是 ， 在 cache 中 为 其 分 配 一 个 数据 
块 ， 称 为 写 分 配 (write allocate)。 将 该 数据 块 从 内 存 取 入 cache 中 ， 改 写 该 数据 块 中 相应 部 
分 的 数据 。 另 一 种 策略 则 是 ， 在 内 存 中 更 新 相应 部 分 的 数据 ， 并 不 将 其 取 入 cache。 这 种 策 
略称 为 写 不 分 配 (no write allocate)。 该 策略 的 动机 是 ， 有 时 候 程 序 需要 写 整 个 数据 块 ， 例 
如 操作 系统 对 某 一 页 内 存 进 行 初 始 操作 (全 部 写 0 )。 在 这 样 的 情况 下 ， 初 始 写 失效 就 将 对 
应 数据 块 取 至 cache 里 ， 这 样 的 操作 是 不 必要 的 。 有 些 处 理 器 允许 以 页 为 粒度 来 修改 写 分 配 
策略 。 

事实 上 ， 在 写 返 回 cache 中 实现 高 效 的 写 操作 比 在 写 穿 透 cache 中 要 复杂 得 多 。 写 穿 
透 cache 中 ， 可 以 在 比 对 标签 的 同时 就 将 数据 写 入 cache。 如 果 标 签 比 对 不 符 ， 发 生 cache 失 
效 。 由 于 cache 是 写 穿 透 的 ， 对 应 数据 块 的 改写 不 会 产生 严重 后 果 ， 因 为 主 存 和 cache 中 的 
数据 都 是 正确 的 。 但 是 ， 在 写 返 回 cache 中 ， 如 果 cache 中 的 数据 已 被 修改 并 产生 cache 失 
效 ， 必 须 先 将 对 应 数据 块 写 回 内 存 。 如 果 在 处 理 存 储 指令 时 ， 在 不 知道 cache 是 否 命中 之 前 
(就 像 对 待 写 穿 透 cache 那样 )， 只 是 简单 地 改写 cache 中 对 应 的 数据 块 ， 那 么 可 能 会 破坏 数 
据 块 中 的 内 容 。 这 些 内 容 还 未 及 时 备份 到 下 一 级 存储 中 。 

在 写 返回 cache 中 ， 由 于 不 能 直接 改写 数据 块 ， 或 者 使 用 两 个 周期 去 处 理 存储 指令 (一 
个 周期 用 来 进行 标签 比 对 确认 是 否 命中 ， 之 后 再 用 一 个 周期 进行 真正 的 写 操作 )， 或 者 需要 
一 个 写 缓冲 来 保存 数据 一 一 通过 流水 化 操作 在 一 个 周期 内 高 效 地 处 理 存储 指令 。 当 使 用 存储 
缓冲 器 ( store buffer) 时 ， 在 正常 的 cache 访问 周期 里 ， 处 理 器 进行 cache 查找 ， 同 时 将 数据 
放 入 store buffer 中 。 如 果 cache 命中 ， 在 下 一 个 无 用 的 cache 访问 周期 里 把 新 数据 从 store 
buffer 写 入 cache 中 。 

相 比 之 下 ， 写 穿 透 cache 中 写 操 作 可 以 在 一 个 周期 内 完成 ， 读 取 标 签 的 同时 将 数据 写 入 
对 应 的 数据 块 中 。 如 果 写 操作 的 数据 块 地 址 与 标签 匹配 ， 处 理 器 继续 正常 执行 ， 因 为 更 新 的 
是 正确 的 数据 块 。 如 果 标 签 不 匹配 ， 处 理 器 产生 写 失 效 ， 将 该 地 址 对 应 的 数据 块 剩余 内 容 取 
到 cache 中 。 

写 返 回 cache 也 有 写 缓冲 。 当 cache 发 生 失 效 替 换 修改 过 的 数据 块 时 ， 写 缓冲 可 以 用 来 
减少 失效 损失 。 在 这 种 情况 下 ,在 从 主 存 读 取 所 需 数据 块 时 ,( 被 替换 出 去 的 ) 修改 过 的 数据 
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块 被 放 入 cache 的 写 返 回 缓冲 (write-back buffer)， 之 后 再 由 写 返 回 缓 冲 写 回 到 主 存 中 。 如 果 
下 一 个 失效 不 会 立即 发 生 ， 当 “ 脏 ” 数 据 块 被 替换 时 ， 该 技术 可 使 失效 损失 减少 一 半 。 


5.3.4 ”cache 实例 : Intrinsity FastMATH 处 理 器 


Instrinsity 的 FastMATH 处 理 器 是 一 款 采 用 MIPS 指令 系统 体系 结构 的 嵌入 式微 处 理 
器 ， 内 有 一 个 简单 的 cache 实现 。 在 本 章 的 结尾 ， 将 会 介绍 ARM 和 Intel 处 理 器 更 为 复杂 
的 cache 设计 。 根 据 教学 规律 ， 先 从 简单 的 、 真 实 的 样 例 人 手 。 图 5-12 显示 了 Intrinsity 的 
FastMATH 处 理 器 中 数据 cache 的 组 织 结构 。 注 意 ， 这 款 处 理 器 的 地 址 宽度 是 32 位 的 ， 而 非 
64 位 的 。 


地 址 ( 按 位 显示 ) 
31 … 1413…65…210 


Block offset 


256 
entries 








图 5-12 Instrinsity 的 FastMATH 处 理 器 中 的 16KiB cache， 每 个 cache 包含 256 个 数据 块 ， 
每 个 数据 块 有 16 个 字 。 注 意 ， 地 址 宽度 为 32 位 。 标 签字 段 为 18 位 ， 索 引 字 段 为 
8 位 ,另外 4 位 (5 一 2 位 ) 用 来 在 数据 块 中 选择 所 需 的 字 ， 可 以 使 用 16 选 1 的 多 
选 器 实现 。 事 实 上 ， 为 去 掉 这 个 多 选 器 ，cache 使 用 了 一 个 独立 的 大 容量 RAM 来 
存放 数据 ， 一 个 小 容量 RAM 来 存放 标签 。 大 容量 的 数据 RAM 所 需 的 额外 地 址 由 
块 内 偏 移 提供 。 这 样 ， 大 容量 RAM 的 字 长 为 32 位 ， 字 数 是 cache 块 数 的 16 倍 


该 款 处 理 器 有 12 级 流水 线 。 峰 值 速度 运行 时 ， 处 理 器 可 以 在 每 个 时 钟 周期 同时 取 来 一 
条 指令 和 一 个 数据 。 为 满足 不 停顿 流水 线 的 要 求 ， 指 令 cache 和 数据 cache 是 分 离 的 。 每 个 
cache 为 16KiB 或 4096 字 ， 数 据 块 大 小 为 16 字 。 

cache 的 读 请 求 处 理 很 简单 。 由 于 有 独立 的 数据 和 指令 cache， 需 要 为 每 个 cache 的 读 写 
提供 单独 的 控制 信号 ( 记 住 : 发 生 失 效 后 指令 cache 需要 更 新 )。 因 此 ， 两 个 cache 的 读 请 求 
处 理 步 又 如 下 : 

1. 将 地 址 发 送 到 对 应 cache。 地 址 可 能 来 自 于 PC ( 读 指 令 )， 也 可 能 来 自 于 ALU (读数 据 )。 
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2. 如 果 cache 命中 ， 在 数据 块 中 可 以 找到 请 求 的 数据 。 由 于 每 个 数据 块 的 容量 为 16 个 
字 ， 需 要 进行 选择 。 使 用 多 选 器 从 这 16 个 字 中 选择 所 需 的 数据 ， 使 用 块 索引 作为 多 选 器 的 
控制 信号 (具体 见 图 下 方 )。 

3. 如 果 cache 失效 ,将 该 地 址 发 往 主 存 。 当 主 存 返 回 数据 时 ,将 其 写 入 cache，( CPU ) 
读 取 它 并 完成 请 求 。 
对 于 写 请 求 ，Intrinsity FastMATH 处 理 器 提供 了 写 穿 透 和 写 返 回 两 种 策略 ， 由 操作 系统 来 决 
定 为 应 用 程序 配置 哪 种 策略 ， 并 含有 1 个 表 项 的 写 缓 冲 。 

使 用 像 Intrinsity FastMATH 中 的 cache 结构 ，cache 的 失效 率 会 如 何 呢 ? 图 5-13 给 出 了 
指令 cache 和 数据 cache 的 失效 率 。 综 合 失效 率 (combined miss rate) 指 的 是 ， 考 虑 了 指令 访 
问 和 数据 访问 的 不 同 频 度 后 ， 每 个 程序 的 cache 访问 的 失效 率 。 


0.4% 
图 5-13 使 用 SPEC CPU2000 评测 程序 ，Intrinsity FastMATH 处 理 器 指令 和 数据 cache 的 近 
似 失 效率 。 综 合 失效 率 指 的 是 使 用 16KiB 指令 cache 和 16KiB 数据 cache 时 的 实际 
失效 率 ， 通 过 将 指令 和 数据 失效 率 分 别 乘 以 指令 和 数据 访 存 的 频 度 获得 


虽然 失效 率 是 cache 设计 的 重要 指标 之 一 ， 但 最 重要 的 衡量 指标 仍然 是 存储 系统 对 程序 
执行 时 间 的 影响 。 下 面 简 要 介绍 一 下 失效 率 与 执行 时 间 之 间 的 关系 。 

| 情 攻 羡 通 与 两 个 分 离 的 cache 相 比 ， 同 等 容量 的 混合 cache ei i 
通常 会 有 更 高 的 命中 率 。 原 因 在 于 ,这 种 混合 的 cache 不 会 严格 把 | 储 由 两 个 独立 的 cache 组 
用 于 存放 指令 的 表 项 数 和 用 于 存放 数据 的 表 项 数 区 分 开 来 。 尽 管 如 ”| 成， 一 个 处 理 指令 访 存 ， 
此 ， 目 前 几乎 所 有 的 处 理 器 都 使 用 分 离 的 指令 cache 和 数据 cache， ee eri rtd 本 
提高 cache 的 带宽 以 满足 现代 流水 线 的 需要 。( 这 样 冲突 失效 也 会 更 
少 ， 具 体 见 5.8 节 。) 

下 面 是 Intrinsity FastMATH 处 理 器 的 cache 配置 ， 与 一 个 同等 容量 的 混合 cache 的 失效 
率 比 较 。 

e@ 所 有 cache 容量 : 32 KiB 

e 分 离 的 cache 的 失效 率 : 3.24% 

@ 混合 cache 的 失效 率 : 3.18% 
分 离 cache 的 失效 率 比 混合 cache 的 失效 率 略 差 。 

通过 同时 支持 指令 和 数据 访问 ，cache 带宽 加 倍 ， 但 这 一 好 处 很 容易 被 增高 的 失效 率 抵 
消 。 这 提醒 我 们 不 能 使 用 失效 率 作为 衡量 cache 性 能 的 唯一 指标 ， 具 体 见 5.4 节 。 


5.3.5 总 结 


本 章 从 分 析 一 个 最 简单 的 cache 开始 : 直接 映射 ， 数 据 块 容量 为 一 个 字 。 在 这 样 的 
cache 中 ， 命 中 和 失效 都 很 简单 ， 因 为 一 个 字 正 好 一 个 数据 块 ， 每 个 字 都 有 独立 的 标签 。 为 
保持 cache 和 主 存 数据 的 一 致 性 ， 可 以 使 用 写 穿 透 的 策略 ， 这 样 每 次 对 cache 的 写 操作 都 会 
引发 对 主 存 的 更 新 。 相 对 写 穿 透 ， 另 一 种 策略 是 写 返回 ， 当 数据 块 被 替换 时 ， 才 将 其 写 人 到 
主 存 中 。 这 些 将 会 在 后 续 的 章节 中 进行 讨论 。 
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为 利用 空间 局 部 性 ，cache 的 数据 块 容量 应 大 于 一 个 字 。 使 用 更 大 容量 的 数据 块 将 会 降 
低 失 效率 ,减少 cache 中 与 数据 存储 相关 的 标签 存储 ， 从 而 提高 cache 的 效率 。 虽 然 更 大 的 
数据 块 容量 可 以 降低 失效 率 ， 但 也 会 增加 失效 损失 。 如 果 失 效 损失 随 着 数据 块 容量 呈 线 性 增 
长 那么 更 大 的 数据 块 容量 很 容易 导致 更 低 的 性 能 。 

为 避免 性 能 损失 ， 加 大 主 存 带宽 来 更 高 效 地 传输 cache 数据 块 。 通 常 加 大 DRAM 带宽 
的 方法 是 加 宽 主 存 和 交叉 访问 。DRAM 设计 者 不 断 改善 处 理 器 和 主 存 之 间 的 接口 ， 加 大 复发 
传输 模式 下 两 者 之 间 的 带宽 ， 减 少 大 容量 cache 数据 块 的 开销 。 





5.4 cache 的 性 能 评估 和 改进 


在 本 节 中 ， 先 从 评估 和 分 析 cache 性 能 的 方法 开始 ， 之 后 介绍 两 种 不 同 的 改善 cache 性 
能 的 技术 。 第 一 项 技术 主要 关注 通过 减少 两 个 不 同 的 内 存 块 争夺 同一 缓存 位 置 的 发 生 概 率 来 
降低 失效 率 。 第 二 项 技术 是 通过 添加 额外 的 一 个 存储 层次 来 减少 失效 代价 。 这 项 技术 被 称 为 
多 级 缓存 ( multilevel caching)， 出 现在 1990 年 售 价 高 达 10 万 美元 的 高 端 计算 机 中 。 此 后 ， 
该 技术 被 运用 到 售 价 仅 需 几 百 美元 的 个 人 移动 设备 中 。 

CPU 时 间 可 被 分 成 CPU 用 于 执行 程序 的 时 间 和 CPU 用 来 等 待 访 存 的 时 间 。 通 常 ， 假 设 
cache 命中 的 访问 时 间 只 是 正常 CPU 执行 时 间 的 一 部 分 。 因 此 ， 

CPU 时 间 =(CPU 执行 的 时 钟 周期 数 十 等 待 存储 访问 的 时 钟 周期 数 ) x 时 钟 周期 
假设 等 待 存储 访问 的 时 钟 周 期 数 主要 来 自 于 cache 失效 ， 同 时 ， 限 制 后 续 的 讨论 只 针对 简单 
的 存储 系统 模型 。 在 真实 的 处 理 器 中 ， 读 写 操作 产生 的 停顿 十 分 复杂 ， 准 确 的 性 能 预测 通常 
需要 对 处 理 器 和 存储 系统 进行 非常 详细 的 模拟 。 

等 待 存储 访问 的 时 钟 周期 数 可 以 被 定义 为 ， 读 操作 带 来 的 停顿 周期 数 加 上 写 操作 带 来 的 
停顿 周期 数 : 

等 待 存储 访问 的 时 钟 周期 数 = 读 操作 带 来 的 停顿 周期 数 + 写 操 作 带 来 的 停顿 周期 数 
读 操作 带 来 的 停顿 周期 数 可 以 由 每 个 程序 的 读 操作 次 数 、 读 操作 失效 率 和 读 操作 的 失效 代价 
来 定义 。 

污 操 作 带 来 的 售 二 周期 数 一 -一 - x 读 失效 率 x 读 失效 代价 

写 操作 要 更 复杂 些 。 对 于 写 穿 透 策略 ， 有 两 个 停顿 的 来 源 ， 一 个 是 写 失 效 ， 通 党 在 连续 写 
之 前 需要 将 数据 块 取 回 (具体 见 5.3.3 节 的 详细 阐述 部 分 ) ， 另 一 个 是 写 缓冲 停顿 ， 通 常 在 
写 缓冲 满 时 进行 写 操作 会 引发 该 停顿 。 因 此 ， 写 操作 带 来 的 停顿 周期 数 等 于 下 面 两 部 分 的 
总 和 : 





与 操作 癌 玉 的 停放 周期 数 = 5 x 写 拓 效率 X 写 失效 代价 + 写 缓冲 满 时 的 全 周期 
由 于 写 缓冲 停顿 主要 依赖 于 写 操作 的 密集 度 ， 而 不 只 是 它 的 频 度 ， 不 可 能 给 出 一 个 简单 
的 计算 此 类 停顿 的 等 式 。 幸 运 的 是 ， 如 果 系 统 中 有 一 个 容量 合理 的 写 缓冲 (例如 ， 四 个 或 者 
更 多 字 )， 同 时 主 存 接收 写 请 求 的 速度 能 够 大 于 程序 的 平均 写 速度 ， 写 缓冲 引起 的 停顿 将 会 
很 少 ， 几 乎 能 够 忽略 。 如 果 系 统 不 能 满足 这 些 要 求 ， 那 么 这 个 设计 可 能 不 合理 。 设 计 者 要 么 
使 用 更 深 的 写 缓冲 ， 要 么 使 用 写 返回 策略 。 
写 返回 策略 也 会 额外 增加 停顿 ， 主 要 来 源 于 当 数据 块 被 替换 并 需要 将 其 写 回 到 主 存 时 。 
这 部 分 将 在 5.8 节 讨论 。 
在 大 多 数 写 穿 透 cache 的 结构 中 ， 读 和 写 的 失效 代价 是 相同 的 (都 是 将 数据 块 从 内 存 取 
至 cache 所 花 的 时 间 )。 假 设 写 缓冲 停顿 是 可 以 忽略 不 计 的 ， 就 可 以 使 用 失效 率 和 失效 代价 来 
同时 刻画 读 操作 和 写 操作 ; 
竺 入 存储 访 问 的 时 名 周期 数 = 和 Ex 写 失效 率 X 写 失效 代价 
该 公式 也 可 以 记 作 
WO 指令 数目 失效 次 数 
等 竺 存储 访问 的 时 名 周期 效 = 富 守 x 完全 二 X 写 失效 代价 
下 面 使 用 一 个 简单 的 例子 来 帮助 大 家 理解 cache 性 能 对 处 理 器 性 能 的 影响 。 


| 例题 | 计算 cache 的 性 能 

假设 指令 cache 的 失效 率 为 2%， 数 据 cache 的 失效 率 为 4%。 如 果 处 理 器 的 CPI 为 2， 
没有 任何 的 访 存 停顿 对 于 所 有 的 失效 ， 失 效 代价 都 为 100 个 时 钟 周期 。 如 果 配 置 了 一 个 
从 不 失效 的 完美 cache， 那 么 处 理 器 的 性 能 会 提高 多 少 ? 假设 load 和 store 指令 占 所 有 指令 
的 36%。 
| 答案 | 假设 指令 数目 为 1， 则 指令 访 存 失效 的 周期 数 为 

指令 访 存 失效 周期 数 =T x 2% x 100=2.00 xz 
由 于 load 和 store 指令 占 总 指令 数 的 36%， 则 数据 访 存 失效 的 周期 数 为 
数据 访 存 失效 周期 数 =JX 36% Xx 4% Xx 100=1.44 xT 
存储 访问 失效 的 周期 数 为 2.00 T+ 1.44 1 = 3.44 I。 这 意味 着 平均 每 条 指令 等 待 存储 访问 的 周 
期 数 大 于 3。 相 应 的 ， 考 虑 了 存储 访问 停顿 的 CPI 为 2 + 3.44 = 5.44。 由 于 指令 数目 或 者 时 
钟 频率 都 不 变 ， 则 CPU 执行 时 间 的 比率 为 
带 有 存储 访问 停顿 的 CPU 执行 时 间 TX CPIswnX 时 钟 周期 _ CPlIsw _ 5.44 
具有 完美 cache 的 CPU 执行 时 间 TX CPlpertectX 时 钟 周期 ”CPlIpertect 2 

具有 完美 cache 的 CPU 性 能 是 原来 的 5.44/2= 2.72 倍 。 


如 果 处 理 器 运行 得 更 快 ， 但 是 主 存 系统 却 并 不 是 这 样 ， 会 发 生 什么 呢 ? 用 于 存储 访问 停 
顿 的 时 间 占 整个 执行 时 间 的 比例 在 不 断 增 大 。 在 第 1 章 中 讲 过 的 Amdahl 定律 提醒 我 们 这 个 
事实 。 一 些 简单 的 例子 说 明 这 个 问题 的 严重 性 。 假 设 在 前 面 的 例子 中 ， 使 用 一 个 改进 的 流水 
线 , 将 CPI 从 2 变 为 1， 时 钟 频率 不 变 ， 则 处 理 器 的 性 能 在 提升 。 那 么 考虑 了 cache 失效 的 

















大 而 忌 : 必 次 化 冶 人 入 279 





系统 将 会 让 CPI 变 为 1 + 3.44 = 4.44。 与 配置 完美 cache 的 系统 相 比 ， 两 者 的 比率 为 
4.44 
= 4.44 
那么 用 于 存储 访问 的 停顿 周期 占 总 周期 数 的 比例 将 会 从 
3.44 3.44 
A 6 变 为 rr 

同 理 ， 如 果 不 改变 存储 体系 结构 ， 仪 提高 时 钟 频 率 ， 由 于 cache 失效 带 来 的 系统 性 能 损失 所 
占 比例 也 会 增 大 。 

之 前 的 例子 和 等 式 都 假设 命中 时 间 不 是 影响 cache 性 能 的 重要 因素 。 很 清楚 ， 如 果 命 中 
时 间 增 加 ， 在 存储 系统 中 访问 一 个 字 所 花 的 时 间 也 在 增加 。 这 可 能 引起 处 理 器 时 钟 周期 的 增 
大 。 本 书 提供 一 些 其 他 实例 以 了 解 导致 命中 时 间 略 微 增加 的 原因 ， 其 中 的 一 个 例子 就 是 增 大 
cache 的 容量 。 更 大 的 cache 自然 会 有 更 长 的 访问 时 间 ， 这 就 好 像 如 果 你 在 图 书馆 的 桌子 足 
够 大 (例如 3 平方 米 )， 那 么 在 桌 上 找到 一 本 所 需 的 书 会 耗费 更 长 的 时 间 。 命 中 时 间 的 增加 可 
能 会 为 流水 线 增加 一 个 流水 级 ， 这 样 即使 cache 命中 也 会 花费 多 个 时 钟 周 期 。 计 算 加 深 流水 
线 对 性 能 的 影响 则 更 为 复杂 。 在 某 些 情况 下 ， 对 于 大 容量 cache 来 说 ， 相 比 命中 率 的 提升 ， 
命中 时 间 的 增加 反而 会 更 占 优 势 ， 这 将 会 导致 处 理 器 性 能 的 下 降 。 

为 了 说 明 不 论 命 中 还 是 失效 访问 数据 存储 的 时 间 都 会 影响 性 能 ， 设 计 者 采用 平均 存储 访 
问 时 间 ( Average Memory Access Time，AMAT) 作为 指标 来 衡量 不 同 的 cache 设计 。 平均 存 
储 访问 时 间 是 考虑 了 命中 、 失 效 以 及 不 同 访问 频 度 的 影响 后 的 平均 访 存 时 间 ， 定 义 如 下 : 

AMAT = 命中 时 间 + 失效 率 X 失效 代价 


| 例题 | 计算 存储 的 平均 访问 时 间 
时 钟 周期 为 lns 的 处 理 器 ， 失 效 代价 为 20 个 时 钟 周期 ， 失 效率 为 5%，cache 访问 时 间 
(包括 命中 判断 ) 为 1 个 时 钟 周期 ， 计 算 该 处 理 器 的 平均 访 存 时 间 AMAT。 假 设 读 写 的 失效 代 
价 相同 ， 并 忽略 写 操作 引起 的 其 他 停顿 。 
每 条 指令 的 平均 访 存 时 间 为 
AMAT = 命中 时 间 + 失效 率 Xx 失效 代价 
三 了 丁 二 由 .05 % 20 
=2 时 钟 周 期 (或 2ns) 


之 后 的 章节 将 会 讨论 另 一 种 降低 失效 率 的 cache 组 织 结构 ， 但 该 结构 有 时 可 能 会 增加 命 
中 时 间 ， 上 有 具体 示 例 见 5.16 节 。 四 


5.4.1 使 用 更 为 灵活 的 替换 策略 降低 cache 失效 率 


迄今 为 止 ， 当 将 数据 块 写 入 cache 时 ， 采 用 的 是 一 种 最 简单 的 定位 策略 : 一 个 数据 块 在 
cache 中 只 有 一 个 对 应 位 置 。 正 如 之 前 提 到 的 ， 这 种 策略 称 为 直接 映射 ， 因 为 它 将 主 存 中 的 任 
意 数据 块 地 址 直接 映射 到 上 层 存储 的 一 个 准确 位 置 。 但 是 ， 事实 上 还 有 很 多 存放 数据 块 的 策 
略 。 直 接 映射 (数据 块 只 能 放 在 唯一 的 位 置 ) 只 是 其 中 的 一 个 特例 。 

另 一 个 特例 是 ， 数 据 块 可 以 存放 在 cache 的 任意 位 置 ， 这 种 策 闪 相 菊 06EE cache 的 一 
略称 为 全 相 联 ， 即 主 存 中 的 某 个 数据 块 和 cache 中 的 任意 表 项 都 可 | 种 组 织 结 构 ， 数 据 块 可 以 
能 有 关联 。 在 全 相 联 cache 中 查找 给 定 的 数据 块 ， 所 有 的 表 项 都 必 | 存放 在 cache 的 任意 位 置 。 
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须 进行 比 对 ， 因 为 数据 块 可 以 存放 在 任意 位 置 。 为 让 比 对 过 程 更 实际 ， 每 个 cache 表 项 都 有 
一 个 比较 器 可 以 并 行 地 进行 比较 。 这 些 比较 器 显然 增加 了 硬件 开销 ， 这 使 得 全 相连 策略 只 能 
用 于 那些 小 容量 的 cache。 

介 于 直接 映射 和 全 相 联 之 间 的 组 织 结构 称 为 组 相 联 。 在 一 个 组 | 得 相 联 cache : cache 的 
相 联 cache 中 ， 每 一 个 数据 块 可 以 存放 的 位 置 数量 是 固定 的 。 每 个 | 一 种 组 织 结构 ， 每 个 数 
数据 块 有 nn 个 位 置 可 放 的 组 相 联 cache 称 为 n 路 组 相 联 cache。 在 | 据 块 在 cache 中 存放 的 位 
一 个 路 组 相 联 cache 中 ， 包 含有 若干 组 ( set)， 每 一 组 包含 有 个 | 车 人 有 国 委 售 ( 委 入 
数据 块 。 主 存 中 的 每 个 数据 块 通过 索引 位 映射 到 cache 中 对 应 的 
组 ， 数 据 块 可 以 存放 在 该 组 中 的 任意 位 置 。 因 此 ， 组 相 联 cache 将 直接 映射 和 全 相 联 结合 起 
来 : 某 个 数据 块 直接 映射 到 某 一 组 ， 之 后 组 中 的 所 有 数据 块 都 需要 与 之 进行 命中 比 对。 例如 ， 
图 5-14 中 假设 cache 中 共有 8 个 数据 块 ， 根 据 以 上 三 种 组 织 结构 ， 给 出 数据 块 12 在 cache 
中 的 位 置 。 


直接 映射 组 相 联 全 相 联 
Block# 01234567 Set# 0 1 2 3 


站 由 让 川 | 
1 
Search Search Search 


图 5-14 地址 为 12 的 主 存 数据 块 在 cache 中 的 位 置 ， 该 cache 具有 8 个 数据 块 ， 分 别 采 用 
直接 映射 、 组 相 联 和 全 相 联 策略 。 在 直接 映射 cache 中 ， 主 存 块 12 只 对 应 一 个 数 
据 块 位 置 ， 数 据 块 号 为 (12 mod 8 ) = 4。 在 两 路 组 相 联 cache 中 ,共有 4 组 ， 主 存 
块 12 对 应 的 组 为 (12 mod 4 ) = 0 ; 主 存 块 可 以 在 这 个 组 中 的 任意 位 置 。 在 全 相 联 
cache 中 ， 主 存 块 12 可 以 放置 在 任意 块 中 。 


注意 ， 在 直接 映射 cache 中 ， 主 存 数据 块 的 位 置 为 


(数据 块 号 ) mod(cache 中 的 数据 块 数量 ) 
在 组 相 联 cache 中 ,包含 主 存 块 的 组 号 为 


(数据 块 号 ) mod (cache 中 的 组 数 ) 

由 于 数据 块 可 以 放置 在 该 组 内 的 任意 位 置 ， 组 内 所 有 元 素 的 所 有 标签 都 必须 被 检查 。 在 
全 相 联 cache 中 ， 数 据 块 可 以 放置 在 任意 位 置 ，cache 中 所 有 数据 块 的 所 有 标签 都 要 被 检查 。 

可 以 将 所 有 的 cache 组 织 结构 看 作 组 相 联结 构 的 特例 。 图 5-15 给 出 8 个 数据 块 cache 可 
能 的 相 联结 构 。 直 接 映射 cache 就 是 一 路 组 相 联 cache : 每 个 表 项 放置 一 个 数据 块 ， 每 一 组 
只 有 一 个 元 素 。 而 m 个 表 项 的 全 相 联 cache 则 是 一 个 m 路 组 相 联 cache， 只 有 一 个 组 ， 组 内 
有 m 个 数据 块 ， 每 个 数据 块 可 以 驻 留 在 这 一 组 内 的 任意 块 内 。 

提高 相 联 度 的 好 处 是 通常 可 以 降低 失效 率 ， 正 如 下 面 的 例子 所 示 。 主 要 的 问题 在 于 可 能 
会 增加 命中 时 间 ， 之 后 将 进行 详细 讨论 。 
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一 路 组 相 联 ( 直接 映射 ) 

Block Tag Data 

两 路 组 相 联 

2 Set Tag Data Tag Data 
3 0 

4 1 

5 2 

6 3 

区 

四 路 组 相 联 

Set Tag Data Tag Data Tag Data Tag Data 
0 

1 

八路 组 相 联 ( 全 相 联 ) 


Tag Data Tag Data Tag Data Tag Data Tag Data Tag Data Tag Data Tag Data 
图 5-15 8 个 数据 块 的 cache 被 配置 成 直接 映射 、 两 路 组 相 联 、 四 路 组 相 联 和 全 相 联 。cache 
的 容量 (以 块 为 单位 ) 等 于 组 数 乘 以 相 联 度 。 因 此 ， 对 于 固定 大 小 的 cache 来 说 ， 
提高 相 联 度 相 当 于 降低 组 数 ， 即 增加 每 一 组 中 的 数据 块 数 。 对 于 8 个 数据 块 来 说 ， 
一 个 八路 组 相 联 的 cache 就 相当 于 全 相 联 cache 


| 例题 | cache 中 的 失效 和 相 联 度 一 
假设 有 三 个 小 cache， 每 一 个 cache 包含 4 个 数据 块 ， 数 据 块 大 小 为 1 个 字 。 第 一 个 

cache 是 直接 映射 ， 第 二 cache 是 两 路 组 相 联 ， 第 三 个 cache 是 直接 映射 。 给 定 如 下 数据 块 地 

址 序列 ， 对 于 每 一 种 cache 组 织 结 构 ， 计 算 失 效 次 数 。 序 列 为 : 0，8，0，6，8。 

| 答案 | 直接 映射 最 简单 。 首 先 ， 检 查 一 下 每 个 数据 块 地 址 会 被 映射 到 哪个 cache 块 上 : 


| 0 | onmoduo4=0 
| 6 | (modo4=2 | 


8 (8 modulo 4)= 0 


每 一 次 访问 后 填写 cache 内 容 ， 如 果 表 项 为 空 ， 表 示 该 数据 块 为 无 效 ( invalid)， 带 颜色 标注 
的 是 在 最 近 访问 过 程 中 新 分 配 的 cache 表 项 ， 未 带 颜 色 标 注 的 是 cache 中 的 旧 表 项 。 



























访问 的 主 存 访问 后 cache 数 据 块 的 内 容 


数据 块 地 址 











在 这 5 次 访问 中 ， 直 接 映射 cache 产生 了 5 次 失效 。 


组 相 联 cache 中 有 两 个 组 〈 标 号 0 和 1 )， 每 组 有 两 个 数据 块 。 首 先 判 断 每 个 数据 块 地 址 








地 
| 6 (6 modulo 2)= 0 





| 0 | (0 modulo 2)=0 
| 
| 





| 8 
由 于 在 发 生 失 效 时 需要 在 每 一 组 中 选择 替换 的 表 项 ， 因 此 需要 一 种 替换 规则 。 组 相 联 cache 
通常 替换 组 内 最 近 最 少 使 用 的 数据 块 ， 也 就 是 说 ， 替 换 掉 在 过 去 最 长 时 间 未 被 使 用 的 数据 块 
(后 续 将 详细 讨论 其 他 替换 规则 )。 使 用 这 样 的 替换 规则 ， 在 上 述 访 存 序列 完成 后 ， 组 相 联 
cache 的 内 容 如 下 所 示 : 


访问 的 主 存 。 | 命中 或 访问 后 cache 数 据 块 的 内 容 
数据 块 地 址 交 


(8 modulo 2)= 0 























0 | 失效 | | 
8 | 失效 | Memomlgl | 
0 | 命中 | Memory[0] | Memory[8] | 
6 | 失效 | re | 
8 | 失效 | Memory[6] | 











注意 ， 当 访问 数据 块 6 时 ， 
8 最 近 最 少 被 访问 。 使 用 两 路 组 相连 cache， 


一 次 失效 。 


全 相 联 cache 仅 有 一 个 组 ， 


它 替 换 了 数据 块 8 的 内 容 。 这 是 因为 ， 相 比 于 数据 块 0， 数 据 块 





共产 生 4 次 失效 。 相 比 直接 映射 cache， 减 少 了 


组 内 有 4 个 数据 块 ， 任 意 一 个 内 存 数 据 块 都 可 以 放置 在 






































cache 的 任意 位 置 。 全 相 联 cache 的 性 能 最 优 ， 只 有 三 次 失效 : 
访问 的 主 存 访问 后 cache 数 据 块 的 内 容 
| 3 
”| 失效 Memory[0}] | 
B | “失效 | Memory[0] | Mem， | 
0 | 命中 Memory[0] | | 
6 失效 Memory[0] | Memory[8] | ' 
8 命 Memory[0] | Memory[8] | Memory[6] | 
针对 这 个 访问 序列 ， 三 次 失效 是 最 优 的 ， 这 是 因为 有 三 个 不 同 的 数据 块 地 址 需要 被 访 


问 。 注 意 ， 如 果 cache 中 有 8 个 数据 块 ， 对 于 两 路 组 相 联 cache 来 说 不 会 发 生 替换 (请 自行 
检查 )。 和 使 用 全 相 联 cache 相 比 ， 发 生 失 效 的 次 数 是 相同 的 。 类 似 地 ， 如 果 cache 中 有 16 
个 数据 块 ， 所 有 三 个 类 型 的 cache 的 失效 次 数 是 相同 的 。 上 述 例子 说 明 ， 在 考虑 cache 性 能 
时 ,容量 和 相 联 度 并 不 是 相互 独立 的 。 


失效 率 的 降低 和 相 联 度 是 什么 关系 ? 对 于 一 个 64KiB 的 数据 cache， 





一 一 一 一 一 外 


每 个 数据 块 大 小 为 


16 个 字 ， 图 5-16 中 给 出 了 随 着 相 联 度 增加 性 能 的 变化 情况 〈 从 直接 映射 到 八路 组 相 联 )。 从 


直接 映射 到 两 路 组 相 联 ， 失 效率 减少 了 大 约 15%， 


有 变化 。 


但 是 ， 随 着 相 联 度 的 增加 ， 失 效率 几乎 没 
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ts 数据 失效 率 


10.3% 
2 8.6% 
4 8.3% 








| 
图 5-16 ”针对 结构 类 似 Intrinsity FastMATH 处 理 器 中 的 数据 cache， 使 用 SPEC CPU2000 标 
准 测 试 程序 ， 测 试 获 得 的 数据 cache 失效 率 。 其 中 ， 相 联 度 从 直接 映射 变化 到 八路 
组 相 联 。 这 些 结果 是 2003 年 Hennessy 和 Patterson 使 用 SPEC CPU2000 中 的 10 个 
测试 程序 获得 的 测试 结果 


5.4.2 在 cache 中 查找 数据 块 


来 考虑 一 下 如 何在 组 相 联 cache 中 找到 所 需 的 数据 块 。 正 如 在 直接 映射 cache 中 ,组 相 
联 cache 中 的 每 一 个 数据 块 都 包括 一 个 确定 其 地 址 的 标签 。 在 同一 组 内 的 每 个 cache 块 的 标 
签 都 需要 比较 ,判断 是 否 与 处 理 器 访问 的 数据 块 地 址 匹配 。 图 5-17 中 给 出 了 地 址 的 组 成 。 
索引 位 用 来 选择 访问 数据 所 在 的 组 ， 该 组 内 所 有 数据 块 的 标签 都 需要 比较 。 考 虑 到 数据 访问 
的 速度 ， 被 选中 组 内 的 所 有 数据 块 的 标签 是 并 行 比 较 的 。 串 行 比 较 策 略 将 大 大 增加 组 相 联 
cache 的 命中 时 间 ， 这 在 全 相 联 cache 中 也 是 一 样 的 。 





Tag Index Block offset 


图 5-17 组 相 联 或 直接 映射 cache 中 地 址 的 三 个 组 成 部 分 。 索 引 位 用 来 选择 组 ， 标 签 位 用 来 
在 所 在 组 内 比较 并 选 出 数据 块 ，block offset 用 来 在 数据 块 内 找到 所 需 的 数据 


如 果 cache 容量 保持 相同 ， 增 加 相 联 度 可 以 增加 每 组 内 数据 块 的 数量 ， 这 也 增加 了 需要 
并 行 比较 的 数据 块 数量 : 相 联 度 以 2 的 寡 递 增 ， 每 组 内 的 数据 块 数量 将 会 翻 倍 ， 组 数 将 会 减 
半 。 相 应 的 ， 相 联 度 以 2 的 宕 递增 ， 索 引 的 位 长 将 减少 1， 标签 的 位 长 将 增加 1。 在 全 相 联 
cache 中 仅 包 含 一 个 组 ， 所 有 的 数据 块 都 必须 并 行 比较 。 因 此 ， 其 地 址 中 没有 索引 ， 除 块 内 
偏 移 〈block offset) 以 外 ， 整 个 地 址 都 需要 进行 比较 。 换 句 话 说， 需要 与 整个 cache 进行 比 
较 ， 无 须 先 进行 任何 索引 。 

在 直接 映射 cache 中 ， 只 需要 一 个 比较 器 ， 因 为 每 组 内 只 有 一 个 数据 块 ， 可 以 通过 简单 
的 索引 访问 cache。 图 5-18 中 给 出 ， 在 四 路 组 相 联 cache 中 ， 需 要 4 个 比较 器 ， 还 需要 一 个 
4 选 1 的 选择 器 ， 用 来 在 该 组 内 四 个 数据 块 中 进行 选择 。cache 访问 过 程 包括 了 相应 组 的 索引 
和 组 内 的 标签 比较 。 组 相 联 cache 的 开销 在 于 需要 更 多 的 比较 器 ， 以 及 由 于 比较 和 选择 带 来 
的 延迟 。 

任何 一 个 存储 层次 ， 在 直接 映射 、 组 相 联 或 全 相 联 映射 结构 之 间 进 行 选 择 ， 都 需要 在 失 
效 代 价 与 相 联 度 实现 两 方面 进行 权衡 ， 既 需要 考虑 时 间 ， 也 需要 考虑 额外 的 硬件 成 本 。 

| 详细 阐述 按 内容 寻 址 存储 器 ( Content Addressable Memory，CAM) 是 一 种 将 比较 和 
存储 集成 在 单一 设备 上 的 电路 结构 。 与 RAM 提供 地 址 读 取 数据 的 工作 方式 不 同 ，CAM 用 户 
传送 数据 至 设备 ，CAM 查找 是 否 存在 该 内 容 副本 ， 并 返回 对 应 存储 行 的 索引 。 相 比 于 使 用 
SRAM 和 比较 器 等 硬件 ， 使 用 CAM 意味 着 cache 设计 者 可 以 实现 更 高 的 相 联 度 。2013 年 ， 
CAM 更 大 的 容量 和 功 耗 使 得 两 路 和 四 路 组 相 联 结构 一 般 采 用 标准 SRAM 和 比较 器 实现 ， 而 
八路 或 更 多 路 组 相 联 的 结构 则 由 CAM 实现 。 
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3130……12111098…3210 
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图 5-18 四 路 组 相 联 cache 的 实现 需要 四 个 比较 右 和 一 个 4 选 1 选择 器。 比较 器 用 来 判断 
相应 组 内 (如 果 有 ) 的 哪个 数据 块 与 标签 匹配 。 比 较 器 的 输出 作为 多 选 器 的 选择 
信号 ， 用 来 在 相应 组 内 的 四 个 cache 块 中 选择 数据 。 在 一 些 实现 中 ，cache 的 数据 
RAM 部 分 的 输出 使 能 信和 号 可 以 用 来 作为 组 内 数据 块 选择 信号 。 这 些 输出 使 能 信和 号 
来 自 于 比较 器 ， 可 以 用 来 驱动 匹配 的 数据 输出 。 这 种 结构 中 不 需要 使 用 多 选 器 


5.4.3 选择 替换 的 数据 块 


当 直接 映射 cache 中 出 现 失效 ， 所 需 的 数据 块 将 直接 调 人 对 应 的 唯一 位 置 ， 之 前 在 该 位 
置 的 数据 块 将 被 替换 。 在 组 相 联 cache 中 出 现 失效 ， 需 要 选择 所 需 数据 块 的 存放 位 置 以 及 被 
替换 的 数据 块 。 在 全 相 联 cache 中 出 现 失 效 ， 所 有 数据 块 都 可 以 被 蔡 换 。 在 组 相 联 cache 中 ， 
需要 在 对 应 组 内 选择 数据 块 。 

最 常用 的 策略 是 最 近 最 少 使 用 (Least Recently Used，LRU)， | 最 近 最 少 使 用 ; 一 种 替换 
之 前 的 例子 中 已 经 提 到 。 在 该 策略 中 ， 被 蔡 换 的 数据 块 应 该 是 最 长 | 疝 呈 全 这 用 号 区 基站 
时 间 未 被 使 用 的 。5.4.1 节 的 组 相 联 示例 中 使 用 的 就 是 LRU， 因 此 数 | 替换 。 
据 块 Memory (0 ) 被 替换 为 Memory (6 )。 

LRU 替换 策略 可 以 通过 跟踪 某 个 数据 块 相对 于 同 组 内 其 他 数据 块 的 使 用 时 间 来 实现 。 
对 于 两 路 组 相 联 cache 来 说 ， 对 两 个 数据 块 的 使 用 情况 进行 跟踪 ， 可 以 在 每 组 内 为 其 单独 保 
留 1 位 ， 该 位 表示 哪 一 项 被 访问 过 。 当 相 联 度 变 大 时 ，LRU 的 实现 将 变 得 困难 。 在 5.8 节 中 
将 讨论 另 一 种 替换 策略 。 


| 例题 | 标签 的 大 小 和 组 相 联 度 
提高 相 联 度 需要 更 多 的 比较 器 ， 每 一 个 cache 块 对 应 的 标签 位 也 越 多 。 假 设 一 个 包含 
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4096 个 数据 块 的 cache， 单 个 数据 块 容 量 为 4 字 ， 地 址 长 度 为 64 位 。 按 照 直接 映射 、 两 路 
组 相 联 、 四 路 组 相 联 和 全 相 联 结构 ， 分 别 计算 组 数 和 标签 总 容量 。 
| 答案 | 由 于 每 个 数据 块 的 大 小 为 16 ( =24 ) 字 节 ，64 位 地 址 中 有 64-4 = 60 位 用 来 表示 索引 
和 标签 。 直 接 映射 cache 结构 中 ， 组 数 和 数据 块 数目 相同 ， 因 此 索引 长 度 为 12 位 ， 因 为 log; 
(4096 )= 12。 所 以 ， 标 签 总 容量 为 (60-12 ) x 4096 = 48 x 4096 = 197Kb。 

相 联 度 每 增加 1 倍 ，cache 的 组 数 将 减少 12。 同 样 ， 索 引 的 长 度 每 减少 1 位 ， 标 签 
的 长 度 就 增加 1 位。 因此 ， 对 于 两 路 组 相 联 cache， 共 有 2048 组 ， 标 签 总 容量 为 (60-11 ) 
x2x2048 = 98 x2048 = 401 kb。 对 于 四 路 组 相 联 cache， 组 数 为 1024， 标 签 总 容量 为 ( 60-- 
10) x4x1024=100x1024=205 kb。 

对 于 全 相 联 cache， 仅 有 一 组 ， 包 含 了 4096 个 数据 块 ， 标 签 就 是 60 位 ， 因 此 标签 总 容 
量 为 60 x 4096 x 1 = 246 kb。 


5.4.4 使 用 多 级 cache 减少 失效 代价 


所 有 的 现代 计算 机 都 使 用 cache。 为 了 减 小 现代 处 理 絮 高 速 时 钟 频 率 与 访问 DRAM 所 需 
的 不 断 增长 的 延迟 之 间 的 差距 ， 大 多 数 微 处 理 器 支持 不 同 层级 的 缓存 。 二 级 cache 一 般 与 一 
级 cache 封装 在 同一 颗 芯 片 中 ， 一 级 cache 失效 后 就 会 访问 下 一 级 缓存 。 如 果 二 级 cache 中 
有 所 需 数 据 ， 一 级 cache 的 失效 代价 就 是 二 级 cache 的 访问 时 间 ， 这 和 主 存 的 访问 时 间 相 比 
要 少 得 多 。 如 果 一 级 或 二 级 cache 中 都 没有 包含 所 需 数据 ， 就 需要 访问 主 存 ， 那 么 失效 代价 
则 会 增 大 。 

使 用 二 级 cache 对 处 理 器 性 能 提升 有 多 大 的 影响 ” 下面 的 例子 给 出 说 明 。 


| 例题 | 多 级 cache 的 性 能 | 
假设 如 果 所 有 的 存储 访问 在 一 级 cache 命中 ， 则 基准 处 理 器 的 CPI 为 1.0， 时 钟 频率 为 
4GHz。 假 设 主 存 的 访问 时 间 为 100ns， 包 括 所 有 的 失效 处 理 过 程 。 一 级 cache 中 每 条 指令 的 
平均 失效 率 为 2%。 
如 果 增 加 一 个 二 级 cache， 不 论 失效 或 命中 其 访问 时 间 都 为 5ns， 其 容量 足够 大 ， 可 以 
将 失效 率 降低 到 0.5%。 问 (增加 了 二 级 cache 的 ) 处 理 器 增 速 多 少 ? 
| 答案 | 主 存 的 失效 代价 为 











一 ns 400 时 钟 周期 
025 


”时 钟 周期 
带 有 一 级 cache 的 处 理 避 CPI 公式 如 下 : 
实际 CPI= 基准 CPI+ 平均 每 条 指令 产生 的 存储 访问 周期 数 
对 于 上 述 带 有 一 级 cache 的 处 理 器 来 说 : 
实际 CPI = 1.0+ 平均 每 条 指令 产生 的 存储 访问 周期 数 =1.0+2%X400=9 
对 于 带 有 二 级 cache 的 处 理 器 ， 一 级 cache 的 失效 可 以 通过 访问 二 级 cache 或 主 存 来 处 理 。 
二 级 cache 的 失效 代价 为 : 





Sns 


一 一 =- 20 时 钟 周期 
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如 果 在 二 级 cache 中 命中 ,那么 这 就 是 全 部 的 失效 代价 。 如 果 在 二 级 cache 中 失效 ， 那 就 需 
要 访问 主 存 ， 则 完整 的 失效 代价 为 二 级 cache 的 访问 时 间 与 主 存 访问 时 间 之 和 。 

因此 ， 对 于 带 有 二 级 cache 的 处 理 器 来 说 ， 实 际 CPI 等 于 基准 CPI 与 各 级 cache 的 访问 
时 间 之 和 。 

实际 CPI = 1 + 平均 每 条 指令 的 一 级 cache 访问 周期 数 + 平均 每 条 指令 的 二 级 cache 访 
问 周 期 数 =1+2%x20+0.5%x400=1+0.4+2.0=3.4 
因此 ， 增 加 了 二 级 cache 的 处 理 器 增 速 。 


3.4 

或 者 换 一 种 思路 ,. 还 可 以 计算 访问 新 增加 的 存储 系统 花费 的 时 钟 周期 数 。 先 计算 二 级 
cache 命中 的 平均 访问 周期 数 (2%-0.5%) x 20 = 0.3)。 然 后 计算 主 存 访问 请 求 的 平均 周期 数 ， 
既 需要 包括 访问 二 级 cache 的 开销 ， 也 要 包括 访问 主 存 的 开销 ， 即 0.5% x (20+400 ) =2.1。 
三 者 相 加 ，1.0+ 0.3+2.1=3.4, 与 上 文 相同 。 


对 于 一 级 和 二 级 cache， 设计 考虑 是 明显 不 同 的 。 这 是 因为 相 比 于 单独 一 个 cache 来 说 ， 
其 他 cache 层次 的 存在 会 改变 其 最 佳 策 略 的 选择 。 特 别 地 ， 两 级 cache 结构 允许 其 一 级 cache 
关注 命中 时 间 最 小 化 以 提高 工作 频率 或 关注 流水 级 数 的 减少 ， 同 时 其 二 级 cache 关注 失效 率 
来 降低 长 访 存 延 迟 带 来 的 失效 代价 。 

两 级 cache 结构 的 这 些 影响 可 以 通过 与 单个 cache 的 最 优 设计 | 多 级 cache : 一 种 有 多 级 
进行 比较 来 获得 。 与 单个 cache 相 比 ， 多 级 cache (multilevel cache) | cache 的 存储 结构 ， 区 别 
中 的 一 级 cache 通常 都 较 小 。 而 且 ， 一 级 cache 会 使 用 较 小 的 数据 | 于 只 有 一 个 cache 和 主 存 
块 容量 ， 以 配合 较 小 的 cache 容量 ， 降 低 失效 代价 。 相 对 的 ， 二 级 “和 
cache 会 比 单个 cache 容量 大 很 多 ， 因 为 二 级 cache 的 访问 时 间 没 有 
那么 关键 。 随 着 容量 的 增 大 ， 相 比 于 单个 cache， 二 级 cache 会 使 用 更 大 的 数据 块 。 由 于 更 
dn 二 级 cache 也 会 使 用 比 一 级 cache 更 高 的 相 联 度 。 

| 理解 和 | 我 们 用 尽 一 切 办 法 去 分 析 排 序 算法 ， 如 冒 泡 排序 、 快 速 排序 、 基 数 排 
着 望 找到 更 好 的 算法 。 图 5-19a 给 出 使 用 基数 排序 与 快速 排序 进行 搜索 时 平均 每 项 的 

行 指令 数目 。 正 如 预想 ， 对 于 大 型 数组 来 说 ， 在 操作 数量 上 基数 排序 比 快速 排序 有 算法 
ee 图 5-19b 给 出 不 同 排序 项 数 下 平均 每 项 的 所 用 时 间 (时 钟 周期 数 )， 而 不 是 执行 
指令 数 。 可 以 看 到 ， 图 中 名 曲线 的 轨迹 与 图 5-19a 中 相似 。 但 是 对 于 基数 排序 来 说 ， 随 着 待 
排序 的 数据 增多 ， 轨 迹 发 生 了 变化 。 这 里 面 发 生 了 什么 ? 图 5-19c 中 查看 了 不 同 排序 项 数 
下 平均 每 项 的 cache 失效 情况 : 对 于 每 一 个 待 排序 的 数据 项 ， 快 速 排序 一 直 保 持 较 少 的 失效 
次 数 。 

遗憾 的 是 ， 标 准 的 算法 分 析 通 常 都 会 忽略 存储 层次 的 影响 。 由 于 时 钟 频率 提高 和 慕 丈 
获 律 的 发 展 ， 体 系 结构 设计 者 不 断 从 指令 流 中 挖掘 潜在 的 性 能 ， 充 分 利用 存储 层次 对 于 高 性 
能 处 理 器 显得 尤为 关键 。 正 如 在 概述 里 提 到 的 ， 理 解 层 次 化 存储 的 行为 对 于 理解 当今 处 理 器 
的 程序 性 能 至 关 重 要 。 
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快速 排序 
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数组 规模 ( 待 排序 的 数据 项 数 ) 
a) 
2000 


基数 排序 


了 
© 
© 
© 


1200 


400 -| 快速 排序 


4 8 16 32 64 128 256 512 1024 2048 4096 
数组 规模 ( 待 排序 的 数据 项 数 ) 
b) 


时 钟 周期 数 / 数据 项 








基数 排序 


cache 失 效 次 数 / 数据 项 
CD 


4 8 16 32 64 128 256 512 1024 2048 4096 
数组 规模 ( 人 ) 

图 5-19 快速 排序 和 基数 排序 的 比较 。 图 a 关注 平均 每 个 待 排序 数据 项 的 执行 指令 数 ， 图 b 
关注 平均 每 个 待 排序 数据 项 的 执行 时 间 ， 图 c 关注 平均 每 个 待 排序 数据 项 的 cache 
失效 次 数 。 这 些 数据 来 自 于 LaMarca 和 Ladner 1996 年 的 论文 。 由 于 以 上 结果 ， 新 
的 基数 排序 算法 将 存储 层次 考虑 进去 ， 重 新 获得 了 算法 上 的 优势 (具体 见 5.15 节 )。 
cache 优化 的 基础 在 于 ， 当 数据 未 被 替换 出 cache 之 前 ， 程 序 不 断 重 复 利 用 数据 块 
中 的 所 有 数据 〈( 即 程序 的 局 部 性 ) 


5.4.5 通过 分 块 进行 软件 优化 


由 于 存储 层次 对 程序 性 能 具有 非常 重要 的 影响 ,许多 软件 优化 技术 通过 重用 cache 中 的 
数据 来 大 幅度 提高 处 理 器 性 能 ， 通 过 改善 程序 的 时 间 局 部 性 来 降低 失效 率 。 
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处 理 数 组 时 ， 如 果 能 将 数组 元 素 按照 访问 顺序 存放 在 存储 器 中 ， 则 能 够 获得 性 能 上 的 好 
处 。 但 是 , 假设 同时 处 理 多 个 数组 ,一些 数组 按 行 访问 ,一些 数 组 按 列 访问 。 按 行 存 储 ( 称 
为 行 优先 ) 或 者 按 列 存储 ( 称 为 列 优先 ) 数组 都 不 能 解决 问题 ， 这 是 因为 在 程序 的 每 个 循环 
体 中 行 访问 和 列 访问 同时 会 被 使 用 到 。 

因而 ， 分 块 算法 针对 子 矩阵 (submatrice) 或 者 数据 块 来 进行 操作 ， 并 不 针对 数组 中 完整 
的 一 行 或 一 列 进行 操作 。 它 的 目标 是 ， 在 替换 之 前 对 已 在 cache 中 的 数据 进行 尽 可 能 多 的 访 
问 ， 这 就 是 说 ， 提 高 程序 的 时 间 局 部 性 以 减少 cache 失效 。 

例如 ,在 DGEMM (图 3-22 中 第 4 一 9 行 ) 中 的 内 层 循环 中 ， 


下 
{ 
double ei1j Ss GEisjam)s CE 
ftomt iit k= Us kK nh: ktt 7 
cij 4= A[it+k*n] * BLIk+jxn] /* cij += ACTiJCk]*BIKILj] */ 
CLitINn] SS eidy yw CLIJTLIT = eij 
} 
} 


首先 读 入 数组 B 的 所 有 Nx NN 个 元 素 ， 重复 地 读 入 数组 A 中 某 一 行 中 的 N 个 元 素 ， 最 后 将 
结果 写 入 C 数组 某 一 行 中 对 应 的 N 个 元 素 (注释 中 的 内 容 让 和 矩阵 的 行 和 列 更 易于 识别 )。 


图 5-20 给 出 了 对 这 三 个 数组 的 访问 快照 。 深 色 阴 影 部 分 表示 最 近 被 访问 过 ， 浅 色 阴 影 部 分 
表示 较 早 被 访问 过 ， 白 色 表示 还 未 被 访问 。 





图 5-20 三 个 数组 C、A 和 8 的 快照 ( N=6，i=1 )。 采 用 不 同 的 阴影 对 各 个 数组 元 素 的 访问 
时 机 进行 表示 : 白色 表示 尚未 被 访问 过 ， 浅 色 阴 影 表 示 较 早 被 访问 过 ， 深 色 阴 影 表 
示 最 近 被 访问 过 。 与 图 5-22 相 比 ， 数 组 A 和 B 的 元 素 被 重复 读 入 以 计算 数组 C 的 
新 元 素 。 变 量 i 、j 和 k 用 来 进行 数组 访问 ， 对 应 行 或 者 列 的 变化 


容量 失效 的 次 数 明显 与 N 和 cache 的 容量 有 关 。 如 果 cache 中 可 以 存 人 三 个 NxNN 的 和 矩 
阵 ， 假 设 没 有 其 他 冲突 ， 那 么 一 切 完美 。 在 第 3、4 章 中 的 DGEMM 例子 中 ， 特 意 将 矩阵 大 
小 设 为 32x32， 那 么 情况 正好 如 此 。 每 个 矩阵 有 32 x 32 = 1024 个 元 素 ， 每 个 元 素 的 大 小 
为 8 字 节 ， 三 个 矩阵 的 大 小 就 为 24KiB， 这 可 以 很 容易 存 人 Intel Core i7( 微 架构 为 Sandy 
Bridge) 的 容量 为 32KiB 的 数据 cache 中 。 

如 果 cache 能 够 存 人 一 个 N x N 的 矩阵 和 一 行 N 个 元 素 ， 至 少数 组 A 中 的 第 i 行 数据 和 
数组 B 可 以 一 直 保留 在 cache 中 。 如 果 容 量 更 小 ， 则 数组 B 和 数组 C 都 可 能 发 生 失 效 。 最 坏 
情况 下 ，N? 个 操作 需要 访问 2N? + N? 个 存储 数据 字 。 

为 保证 需要 访问 的 数组 元 素 都 尽 可 能 在 cache 中 ， 原 始 代 码 需 要 改写 为 基于 子 矩 
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阵 的 计算 方式 。 这 样 ， 我 们 需要 调用 图 4-78 中 的 DGEMM 版 本 ， 该 版 本 就 是 在 大 小 为 
BLOCKSIZExBLOCKSIZE 的 矩阵 上 重复 计算 。BLOCKSIZE 也 被 称 为 块 参数 。 

图 5-21 中 给 出 DGEMM 的 分 块 版 本 。 函 数 do_block 改写 自 图 3-22 中 的 DGEMM， 
增加 了 3 个 新 参数 si、sj 和 sk 用 来 描述 数组 A、B 和 C 的 子 和 矩阵 的 起 始点 。 函 数 do_ 
block 的 两 个 内 部 循环 以 BLOCKSIZE 为 步 长 进行 计算 ， 并 不 是 按照 数组 B 和 CC 的 全 长 进 
行 计算 。gcc 编译 器 通过 函数 内 联 (function inlining) 消除 了 函数 调用 的 所 有 开销 。 也 就 是 说 ， 
在 程序 中 直接 插入 函数 代码 ， 以 避免 通常 的 参数 传递 和 现场 保存 操作 。 


#define BLOCKSIZE 32 
void do block Cint Wm, mt Bis mnt Bis nt Sk, double *A, double 
*B, double *C) 
{ 
Fop (irk 人 
for (int j = sj; j《 sj+BLOCKSIZE; ++j) 
{ 


douBDle Ci = CE ET = GLI BY 
fort Tb k= Sky k « SktBLOCKSLTZES Kt 2 
Bij = AL TE -BER Ej] 学 


(OO ONONPONDNDPD 


攻守 二 = Cijr/ CLiTLIl = © #7 
} 

} 
void dgemm (int n, double* A, double* B, double* C) 
LS 
16 tor Ct Mt sy 0 Wj % We 3 = BUOCKRILZE 才 
17 fo ( Tnt Si 0 i he Si 4= BLOCKSIZE 3 
18 ftom ( Tnt Sk = "0s Se < Wm Sk = BLOCKSLZE ) 
1 Un Sl ST SE Wh Bs CY 








图 5-21 DGEMM ( 见 图 3-22) 的 cache 分 块 版 本 。 假 设 数组 CC 初始化 为 0。 也 数 do_ 
block 以 第 3 章 中 的 DGEMM 为 基础 ， 增 加 了 新 参数 来 描述 BLOCKSIZE 大 小 的 
子 矩 阵 的 起 始 位 置 。gcc 优化 通过 内 联 do_b1ock 函数 的 方式 消除 了 函数 调用 的 
开销 


图 5-22 给 出 使 用 分 块 思想 对 三 个 数组 进行 访问 的 示例 。 仅 对 于 容量 失效 来 说 ， 需 要 访 
问 的 内 存 数 据 字 总 数 为 2NY BLOCKSIZE + N*。( 相 比 未 分 块 前 ) 这 个 数据 得 到 了 改善 ， 原 因 
在 于 参数 BLOCKSIZE。 由 此 可 见 ， 分 块 思想 挖掘 出 程序 的 时 间 局 部 性 和 空间 局 部 性 ， 比 如 
数组 A 的 访问 得 益 于 空间 局 部 性 ， 而 数组 B 的 访问 得 益 于 时 间 局 部 性 。 





图 5-22 数组 C、A 和 B 的 访问 (BLOCKSIZE =3 )。 注 意 ， 与 图 5-20 相 比 ， 访 问 的 元 素数 
量变 少 
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虽然 目标 是 减少 cache 失效 次 数 ， 不 过 分 块 思想 也 可 以 用 来 协助 寄存 器 分 配 。 通 过 采用 
规模 较 小 的 数据 块 ， 可 以 把 数据 块 保存 在 寄存 器 中 ， 这 样 可 以 降低 程序 访问 存储 的 次 数 ， 提 
高 程序 的 性 能 。 

随 着 矩阵 规模 的 增 大 ， 三 个 矩阵 不 能 完全 放 人 cache 中 ， 图 5-23 中 给 出 了 采用 cache 分 
块 对 未 优化 DGEMM 性 能 的 影响 。 和 矩阵 规模 最 大 时 ， 未 优化 程序 的 性 能 折 半 。 采 用 cache 分 
块 的 版 本 ， 即 使 矩阵 规模 达到 960 x 960， 是 32 x 32 和 矩阵 规模 (第 3 章 和 第 4 章 ) 的 900 倍 ， 
性 能 也 仅仅 降低 了 不 到 10%。 


图 32x32 国 160x160 国 480x480 口 960x960 


GFLOPS 





未 优化 前 分 块 后 
图 5-23 ”未 优化 DGEMM (图 3-22 ) 与 cache 分 块 DGEMM (图 5-21 ) 的 性 能 比较 ， 和 矩阵 维 
度 从 32 x 32 (所 有 三 个 矩阵 都 可 放 和 人 cache) 变 至 960 x 960 


| 各 缅 阐 带 多 级 cache 使 得 很 多 问题 变 得 复杂 。 首 先 ， 产 生 了 | 全 局 失效 率 ， 对 于 多 级 
很 多 不 同类 型 的 失效 和 对 应 的 失效 率 。 在 5.4.4 节 的 例子 中 ， 介 绍 了 | cache， 在 所 有 cache 层次 
一 级 cache 失效 率 和 全 局 失效 率 (global miss rate)， 即 在 所 有 cache 0 
层次 中 都 失效 的 存储 访问 所 占 的 比例 。 还 有 二 级 cache 失效 率 ， 即 
所 有 在 二 级 cache 上 失效 的 访问 数 除 以 二 级 cache 的 所 有 访问 数 。 这 局 部 失效 率 ; 对 于 多 级 
种 失效 率 称 为 二 级 cache 的 局 部 失效 率 (local miss rate)。 由 于 一 级 cache， 在 某 一 cache 层 
cache 对 存储 访问 进行 了 过 滤 ， 特 别 是 那些 时 间 和 空间 局 部 性 较 好 的 | 次 上 失效 的 访问 数目 所 占 
访问 ， 因 此 二 级 cache 的 局 部 失效 率 比 全 局 失效 率 要 高 。 考 虑 5.4.4 上 
节 的 例子 ， 二 级 cache 的 局 部 失效 率 为 0.5% / 2% = 25%。 幸 运 的 
是 ， 全 局 失效 率 表示 的 是 必须 访问 主 存 的 频 度 。 

| 磁 顷 珊 通 | 对 于 乱 序 处 理 器 (具体 见 第 4 章 )， 性 能 更 为 复杂 ， 因 为 处 理 器 会 在 cache 失 
效 时 继续 执行 指令 。 因 此 ， 采 用 平均 每 条 指令 失效 次 数 来 刻画 cache 性 能 ， 而 非 指令 失效 率 
和 数据 失效 率 。 公 式 如 下 : 

下 介入 -全 各 全 全 x (所 有 失效 代价 重合 的 失效 代价 ) 

由 于 并 没有 通用 的 公式 来 计算 重 亚 的 失效 代价 ， 所 以 乱 序 处 理 器 存储 层次 的 性 能 评测 
不 可 避免 地 需要 对 处 理 器 和 存储 层次 进行 模拟 。 只 有 通过 观察 每 次 失效 后 处 理 器 的 执行 过 
程 ， 才 能 确定 等 待 数据 时 处 理 器 是 暂停 还 是 另 找 事情 来 做 。 基 本 原则 是 : 对 于 一 级 cache 失 
效 但 二 级 cache 命中 的 访问 ， 处 理 器 通常 会 隐藏 失效 代价 ， 但 是 不 会 为 二 级 cache 隐藏 失效 
代价 。 
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| 详细 阐述 算法 的 性 能 挑战 在 于 ， 对 于 相同 架构 的 不 同 实现 ， 层 次 化 存储 在 cache 容 
量 、 相 联 度 、 基 本 块 大 小 和 cache 数量 等 方面 都 存在 变化 。 为 适应 这 样 的 变化 ， 最 近 一 些 算 
法 库 可 对 算法 进行 参数 化 处 理 ， 在 程序 运行 时 搜索 参数 空间 ， 针 对 特定 处 理 器 找到 最 佳 的 参 
数组 合 。 这 种 方法 称 为 自动 调 优 (autotuning)。 








5.4.6 总结 


本 节 集 中 讨论 了 四 个 主题 : cache 性 能 ， 使 用 组 相 联结 构 来 降低 失效 率 ， 使 用 多 级 cache 
结构 降低 失效 代价 ， 软 件 优化 以 改善 cache 有 效 性 。 

存储 系统 对 于 程序 执行 时 间 有 显著 影响 。 处 理 器 由 于 访 存 导致 的 暂停 时 间 受 到 失效 率 和 
失效 代价 的 影响 。 后 续 在 5.8 节 中 将 会 提 到 ，cache 的 设计 挑战 在 于 如 何 减少 这 些 影响 ， 同 时 
还 不 会 显著 影响 存储 层次 的 其 他 关键 因素 。 

为 降低 失效 率 ， 采用 了 相 联 存储 结构 。 这 样 的 方案 通过 在 cache 内 部 更 为 灵活 地 放置 数 
据 块 来 降低 cache 的 失效 率 。 全 相 联 结构 允许 任意 放置 数据 块 ， 但 车 需要 查找 数据 则 需要 对 
cache 中 的 每 一 个 数据 块 进行 搜索 。 这 样 高 的 硬件 成 本 使 得 大 容量 的 全 相 联 cache 不 符合 实 
际 。 组 相 联 cache 是 一 个 比较 实际 的 可 选 方案 ， 因 为 只 需要 对 索引 选中 的 那 一 组 中 的 数据 块 
进行 比 对 即 可 。( 相 比 全 相 联 cache) 组 相 联 cache 虽然 有 更 高 的 失效 率 ， 但 访问 速度 更 快 。 
如 何 确 定 相 联 度 以 产生 最 佳 性 能 ， 这 和 制造 工艺 以 及 实现 细节 都 有 密切 联系 。 

可 以 将 多 级 cache 看 作 一 种 降低 失效 代价 的 技术 ， 因 为 它 允 许 一 级 cache 的 失效 访问 去 
访问 容量 更 大 的 二 级 cache。 设 计 者 发 现 ， 受 限 的 芯片 面积 和 更 高 的 时 钟 频率 设计 目标 阻碍 
了 一 级 cache 的 容量 扩大 ， 他 们 只 能 在 二 级 cache 上 做 文章 了 。 通 常 ， 二 级 cache 的 容量 会 
是 一 级 cache 的 10 倍 或 更 大 ， 可 以 处 理 很 多 一 级 cache 中 失效 的 访问 。 这 时 ， 失 效 代价 就 
变 为 二 级 cache 的 访问 时 间 (通常 小 于 10 个 处 理 器 时 钟 周期 ) 与 主 存 的 访问 时 间 (通常 大 于 
100 个 处 理 器 时 钟 周 期 ) 的 折 中 。 关 于 相 联 度 ， 设 计 者 可 以 在 二 级 cache 的 容量 和 访问 时 间 
之 间 做 权衡 ， 这 和 许多 方面 的 具体 实现 密切 相关 。 

最 后 ， 如 果 层 次 化 存储 对 性 能 有 重要 影响 ， 则 需要 考虑 如 何 改变 算法 来 改善 cache 的 行 
为 。 当 处 理 大 型 数组 时 ， 可 以 考虑 分 块 这 个 重要 的 技术 。 


5.5 可 靠 的 存储 器 层次 
本 章 前 面 几 节 隐 含 了 一 个 前 提 ， 即 存储 层次 不 会 失效 。 如 果 这 个 前 提 不 成 立 ， 只 追求 速 
度 而 没有 可 靠 性 是 毫 无 吸引 力 的 。 正 如 第 1 章 所 述 ， 增 加 国 车 性 的 最 好 方法 是 元 余 。 本 节 将 


首先 回顾 与 可 靠 性 有 关 的 术语 并 定义 其 他 术语 和 度量 ， 然 后 展开 讲述 如 何 采用 宛 余 技术 构造 
可 靠 的 存储 句 。 


5.5.1 失效 的 定义 
假设 有 某 种 服务 的 需求 ， 用 户 可 以 看 到 一 个 系统 在 两 种 分 别 有 需 求 的 服务 的 状态 之 间 交 蔡 : 
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1. 服务 完成 : 交付 的 服务 与 需求 相符 。 

2. 服务 中 断 : 交付 的 服务 与 需求 不 同 。 

失效 导致 状态 1 到 状态 2 的 转换 ， 而 从 状态 2 到 状态 1 的 转换 过 程 被 称 为 恢复 。 失 效 可 
能 是 永久 性 的 或 间 吹 性 的 ， 间 向 性 失效 更 为 复杂 。 因 为 当 系 统 在 两 种 状态 之 间 摇 摆 时 ,诊断 
更 加 困难 。 而 永久 性 失效 更 容易 诊断 。 

这 里 引出 两 个 相关 术语 : 可 靠 性 和 可 用 性 。 

可 人 靠 性 是 一 个 系统 能 够 持续 提供 用 户 需 求 的 服务 的 度量 ， 即 从 参考 时 刻 到 失效 的 时 间 间 
隔 。 因 此 ， 平 均 无 故障 时 间 ( MTTF) 是 可 靠 性 的 度量 方法 。 与 之 相关 的 一 个 术语 是 年 度 失 
效率 (AFR)， 它 是 指 给 定 MTTF 一 年 内 预期 的 器 件 失 效 百分比 。 当 MTTF 变 大 时 ， 可 能 会 
产生 误导 性 的 结果 ， 而 AFR 会 带 来 更 直观 的 结果 。 


| 例题 | 磁盘 的 MTTF 和 ARF 
当今 一 些 磁盘 声称 其 MTTF 为 1 000 000 小 时 ， 约 等 于 1 000 000/(365x24)=114 

年 ， 这 意味 着 这 些 磁盘 几乎 从 不 失效 。 运 行 Internet 服务 (如 搜索 ) 的 仓储 级 计算 机 可 能 有 

50 000 台 服 务 器 。 假 定 每 台 服 务 器 有 两 块 磁盘 。 使 用 AFR 来 计算 每 年 有 多 少 块 磁盘 失效 。 

| 答案 | 一 年 有 365 x 24 = 8760 小 时 。1 000 000 小 时 的 MTTF 意味 着 AFR 为 87607 1 000 000 = 

0.876%。 磁 盘 总 数 为 100 000， 因 此 每 年 将 有 876 块 磁盘 失效 ， 即 平均 每 天 有 超过 两 块 的 磁盘 

失效 ! 


服务 中 断 使 用 平均 修复 时 间 (MTTR ) 来 衡量 。 平 均 失 效 间 隔 时 间 (MTBF) =MTTF + 
MTTR。 尺 管 MTBF 被 广泛 使 用 ，MTTF 却 更 加 合适 。 然 后 ， 可 用 性 是 指 系统 正常 工作 时 间 
在 连续 两 次 服务 中 断 间隔 时 间 中 所 占 的 比例 : 








MTTF 
可 用 性 二 TTF MTTR 
请 注意 ， 可 靠 性 和 可 用 性 是 可 量化 的 ， 它 们 不 仅仅 是 可 信 性 的 同义词 。 降 低 MTTR 可 以 提高 
MTTF 进而 提高 可 用 性 。 例 如 ， 用 于 故障 检测 、 诊 断 和 修复 的 工具 可 减少 修复 失效 的 时 间 ， 
从 而 提高 可 用 性 。 
我 们 希望 系统 有 很 高 的 可 用 性 。 一 种 简写 是 “每 年 可 用 性 中 9 的 数量 ”。 例 如 ， 一 个 很 
好 的 网 络 服务 可 提供 4 或 5 个 9 的 可 用 性 。 一 年 有 365 x24x60= 526 000 分 钟 ， 简 化 表示 
如 下 : 
1 个 9: 90% 之 ”36.5 天 的 维修 时 间 /年 
2 个 9: 99% 之 ”3.65 天 的 维修 时 间 /年 
3 个 9: 99.9% 过 ”526 分 钟 的 维修 时 间 /年 
4 个 9: 99.99% 二 52.6 分 钟 的 维修 时 间 /年 
5 个 9: 99.999% 二 、5.26 分 钟 的 维修 时 间 /年 
依 此 类 推 。 
为 了 提高 MTTF ， 可 以 提高 器 件 的 质量 ， 也 可 以 设计 能 够 在 器 件 出 现 故障 的 情况 下 继续 
运行 的 系统 。 因 此 ， 由 于 器 件 的 失效 可 能 不 会 导致 系统 的 失效 ， 需 要 根据 上 下 文 对 失效 进 
行 定 义 。 为 了 明确 二 者 的 区 别 ， 用 术语 故障 来 表示 器 件 的 失效 。 以 下 是 提高 MTTF 的 三 种 
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方法 : 
1. 故障 避免 技术 : 通过 合理 构建 系统 来 避免 故障 的 出 现 。 
2. 故障 容 丸 技术 : 使 用 宛 余 技 术 ， 即 使 出 现 故 障 ， 仍 然 可 以 按照 需求 服务 。 
3. 故 障 预测 技术 : 矣 测 故障 的 出 现 和 构建 ， 从 而 允许 在 器 件 故障 前 进行 替换 。 


5.5.2 纠正 1 位 错 、 检 测 2 位 错 的 汉 明 编码 


理 查 德 . 汉 明 (Richard Hamming) 发 明了 一 种 广泛 应 用 于 存储 ”| 错误 检测 编码 : 这 种 编码 
器 的 匈 余 技术 ， 并 因此 获得 1968 年 的 图 灵 奖 。 二 进 制 数 间 的 距离 对 | 方式 能 够 检测 出 数据 中 有 
于 理解 宛 余 码 很 有 帮助 。 汉 明 距 离 是 两 个 等 长 二 进 制 数 对 应 位 置 不 | ! 位 错误 ， 但 是 不 能 对 错 

误 位 置 进行 精确 定位 ， 因 
同 的 位 的 数量 。 例 如 ，011011 和 001111 的 距离 为 2。 如 果 在 一 种 编 “| 未 能 纠正 错误 。 
码 中 ， 码 字 之 间 的 最 小 距离 为 2， 且 其 中 有 1 位 错误 ， 将 会 发 生 什 
么 ? 这 会 将 一 个 有 效 的 码 字 转化 为 无 效 码 字 。 因 此 ， 如 果 能 够 检测 一 个 码 字 是 否 有 效 ， 就 可 
以 检测 出 1 位 的 错误 ， 称 为 1 位 错误 检测 编码 。 

汉 明 使 用 奇偶 校 验 码 进行 错误 检测 。 在 奇偶 校 验 码 中 ， 要 计数 一 个 字 中 1 的 个 数 是 奇数 
还 是 偶数 。 当 一 个 字 被 写 入 存储 器 时 ， 奇 偶 校 验 位 也 被 写 人 (1 表示 奇数 ，0 表示 偶数 )。 也 
就 是 说 ，N + 1 位 字 中 1 的 个 数 永 远 是 偶数 。 当 读 出 该 字 时 ， 奇 偶 校 验 位 也 一 并 读 出 并 检查 。 
如 果 计 算出 的 校 验 码 与 存储 的 不 匹配 ， 则 发 生 错误 。 


| 例题 | 
计算 值 为 310o,、 宽 度 为 一 字 节 的 二 进 制 数 的 奇偶 性 ， 并 写 出 保存 到 存储 器 中 的 内 容 。 
假定 奇偶 校 验 位 在 最 右 侧 ， 并 且 最 高 有 效 位 在 存储 器 中 发 生 了 翻转 。 然 后 将 其 读 出 。 能 否 检 
测 出 错误 ?如 果 最 高 两 位 都 发 生 翻转 呢 ? 
| 答案 | 31o 是 00011111:， 它 有 5 个 1。 为 使 其 校 验 为 偶数 个 1， 需 要 在 奇偶 校 验 位 写 和 人 
1， 即 0001111112。 如 果 最 高 有 效 位 发 生 翻转 ， 将 读 出 100111111:， 其 中 有 7 个 1， 因 为 预 
期 有 偶数 个 1， 而 计算 出 有 奇数 个 1， 则 报告 发 生 了 错误 。 如 果 最 高 两 位 发 生 翻 转 ， 将 读 出 
1101111112， 其 中 有 8 个 1， 因 此 无 法 检测 出 错误 。 洒 


如 果 有 2 位 同时 出 错 ， 则 1 位 奇偶 校 验 位 技术 无 法 检测 到 错误 ， 因 为 码 字 奇偶 性 不 变 。 
(实际 上 ，1 位 奇偶 校 验 可 以 检测 任意 奇数 个 错误 ， 但 是 实际 情况 中 ， 发 生 3 位 错误 的 概率 远 
低 于 2 位 错误 的 概率 ， 所 以 实际 中 1 位 奇偶 校 验 码 仅 用 于 检测 1 位 错误 。) 

当然 ， 奇 偶 校 验 码 不 能 纠正 错误 ， 汉 明 想 要 做 到 检 错 的 同时 又 能 纠 错 。 如 果 码 组 中 最 小 
距离 为 3， 那 么 任意 发 生 1 位 错误 的 码 字 与 其 对 应 的 正确 码 字 的 距离 ， 要 小 于 它 与 其 他 有 效 
码 字 的 距离 。 他 想 出 了 一 个 容易 理解 的 将 数据 映射 到 距离 3 的 码 字 ， 为 纪念 汉 明 ， 我 们 将 这 
种 方法 称 为 汉 明 纠 错 码 (ECC)。 我 们 使 用 额外 的 奇偶 校 验 位 确定 单个 错误 的 位 置 。 以 下 是 计 
算 汉 明 纠 错 码 的 步骤 : 

1. 从 左 到 右 由 1 开始 依次 编号 ， 这 与 传统 的 从 最 右 侧 由 0 开始 编号 相反 。 

2. 将 编号 为 2 的 整数 寡 的 位 标记 为 奇偶 校 验 位 (1，2，4，8，16，… )。 

3. 剩余 其 他 位 用 于 数据 位 (3，5，6，7，9，10，11，12，13，14，1S， 心 )。 

4. 奇偶 校 验 位 的 位 置 决 定 了 其 对 应 的 数据 位 (图 5-24 以 图 形 方式 进行 了 说 明 )， 如 下 
所 示 : 

e 校 验 位 1 (0001: ) 检查 1,3,5,7,9, 11,… 位 ， 这些 位 的 编号 最 右 一 位 为 1 ( 0001;、 
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0011:，0101:，01112，1001:，10112，… )。 

e 校 验 位 2 (0010;, ) 检查 2,3，6, 7 10，11，14，15，… 人 位， 这些 位 的 编号 最 右 第 
二 位 汐 1s 

e 校 验 位 4 (0100; ) 检查 4 一 7,12 一 15,20 一 23,… 人 位， 这些 位 的 编号 最 右 第 三 位 为 1。 

e 校 验 位 8( 1000; ) 检查 8 一 15,24 一 31,40 一 47,… 人 位， 这些 位 的 编号 最 右 第 四 位 为 1。 

请 注意 ， 每 个 数据 位 都 被 至 少 两 个 奇偶 校 验 位 覆盖 。 

5. 设置 奇偶 校 验 位 ， 为 各 组 进行 偶 校 验 。 


和 
pp ld | ps 


Ee 曾 面 硬 四 癌 负 到 国 国 呈 硬 加 
| 





图 5-24 8 位 数据 的 汉 明 纠 错 码 ， 包 括 奇偶 校 验 位 、 数 据 位 及 其 覆盖 范围 


如 同 变 魔术 一 样 ， 你 可 以 通过 查看 奇偶 校 验 位 来 确定 数据 位 是 否 出 错 。 在 图 5-24 中 的 
12 位 编码 中 ， 如 果 四 个 奇偶 校 验 位 (ps，ps，p2，p1 ) 的 值 为 0000:， 则 说 明 没 有 错误 。 但 是 ， 
如 果 四 个 校 验 位 值 为 1010:， 即 101。， 那 么 汉 明 纠 错 码 告诉 我 们 第 10 位 ( de ) 是 错误 的 。 由 
于 数字 是 二 进 制 的 ， 可 以 通过 翻转 第 10 位 的 值 来 纠 错 。 


| 例题 | - 

假设 一 个 8 位 数据 的 值 是 10011010:。 首 先 写 出 对 应 的 汉 明 纠 错 码 ， 然 后 将 第 10 位 取 
反 ， 说 明 汉 明 纠 错 码 如 何 发 现 并 纠正 该 错误 。 

为 奇偶 校 验 位 留 出 空位 ，12 位 码 字 为 ”1 001 1010。 
| 答案 | 位置 1 检查 1、3、5、7、9 和 11 位 , 即 ”1 001 1010。 为 使 该 组 的 校 验 性 为 偶 ， 
将 第 1 位 设置 为 0。 

位 置 2 检查 2、3、6、7、10、11 位 , 即 0 1 001 1010。 为 使 该 组 的 校 验 性 为 奇 ， 
将 第 2 位 设置 为 1。 

位 置 4 检查 4、5、6、7、12 位 ， 即 011 001 101, 将 第 4 位 设置 为 1。 

位 置 8 检查 8、9、10、11、12 位 ， 即 0111001 1010, 将 第 8 位 设置 为 0。 

最 终 的 码 字 是 011100101010。 将 数据 位 第 10 位 取 反 后 为 011100101110。 

奇偶 校 验 位 1 是 0 (011100101110 有 4 个 1， 为 偶 性 ; 故 该 组 无 错误 )。 

奇偶 校 验 位 2 是 1 (011100101110 有 5 个 1， 为 奇 性 ; 故 该 组 某 个 位 置 上 有 错误 )。 

奇偶 校 验 位 4 是 1 (011100101110 有 2 个 1， 为 偶 性 ; 故 该 组 无 错误 )。 

奇偶 校 验 位 8 是 1 (011100101110 有 3 个 1， 为 奇 性 ; 故 该 组 某 个 位 置 上 有 错误 )。 

奇偶 校 验 位 2 和 8 正确 。 因 为 2+8 = 10, 第 10 位 肯定 是 错误 的 。 因 此 ， 我 们 将 其 反 转 
为 011100101010， 即 完成 了 纠 错 。 








汉 明 并 没有 止步 于 1 位 纠 错 码 。 通 过 再 增加 1 位 的 方式 ， 可 以 使 码 组 中 的 最 小 汉 明 距离 
变 为 4。 这 意味 着 我 们 可 以 纠正 1 位 错 并 检测 2 位 错 。 该 方法 添加 了 1 位 奇偶 校 验 位 ， 对 整 
个 字 进 行 计 算 校 验 。 例 如 ， 对 于 一 个 4 位 的 字 ， 需 要 7 位 完成 1 位 错误 检测 。 计 算 汉 明 奇 偶 
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校 验 位 H (pt ps ps )( 依 然 采用 偶 校 验 ) 最 后 计算 整个 字 的 偶 校 验 位 pa: 

下 

BB bs QO Py dd P， 

上 述 纠正 1 位 错 并 检测 2 位 错 的 算法 就 是 像 以 前 一 样 先 计算 ECC 组 的 奇偶 校 验 位 ( H)， 
再 计算 全 组 的 奇偶 校 验 位 (ps ) 即 可 。 以 下 是 可 能 出 现 的 4 种 情况 : 

1. H 为 偶 并 且 p4 为 偶 ， 表 示 没 有 错 。 

2. H 为 奇 并 且 ps 为 奇 ， 表示 发 生 了 1 位 可 纠正 错误 。( 如 果 仅 1 位 出 错 ，ps 应 当 为 奇 。) 

3. H 为 偶 并 且 p 为 奇 ,表示 仅 p4 位 出 错 ， 而 不 是 该 字 的 其 余部 分 ， 因 此 取 反 ps 位 即 可 。 

4. HH 为 奇 并 且 ps 为 偶 ， 表 示 发 生 了 2 位 错 。( 当 出 现 2 位 错时 ，ps 为 偶 。) 

纠 1 位 错 、 检 2 位 错 (SEC / DED) 技术 在 当今 服务 器 的 内 存 中 被 广泛 应 用 。 方 便 的 是 ， 
8 字 节 的 数据 块 做 SEC/DED 刚好 需要 一 个 字 节 的 额外 开销 ， 这 就 是 为 什么 许多 DIMM 是 72 
位 宽 。 

[详细 阐述 | 为 了 计算 SEC 需要 多 少 位 ， 设 p 表示 校 验 位 的 位 数 ，4d 表示 数据 位 的 位 数 ， 
那么 整个 字 为 p+d 位。 如 果 采 用 pp 位 纠 错位 指示 错误 ( 字 长 为 p+d 位 )， 再 加 上 没有 错误 
的 情况 ， 那 么 需要 : 

2? = ptd+l1 位 ， 因 此 p 宇 log (pt+d+1) 

例如 ， 对 于 8 位 的 数据 意味 着 d= 8 并 且 2? 宇 pt8+1， 所 以 p= 4。 类 似 地 ，16 位 数 
据 的 p=5，32 位 时 p=6，64 位 时 p=7， 依 此 类 推 。 

| 详细 羡 述 在 大 型 系统 中 ， 出 现 多 位 错 的 概率 和 整个 内 存 芯 片 出 错 的 概率 变 得 显著 。 
IBM 引入 叫 作 chipkill 的 技术 来 解决 这 个 问题 ， 许 多 大 型 系统 也 使 用 这 种 技术 。(Intel 称 他 们 
所 用 的 为 SDDC。) 与 用 于 磁 枪 的 RAID 方法 类 似 ( 见 5.11 节 )，chipkill 将 数据 和 校 验 码 分 散 
开 ， 因 此 当 菜 一 内 存 芯 片 全 部 出 错时 ， 可 以 通过 其 他 内 存 芯 片 对 丢失 的 内 容 进 行 重建 。 假 设 
有 10000 个 处 理 器 组 成 的 集群 ， 其 中 每 个 处 理 器 有 4GiB 内 存 ，IBM 计算 了 在 3 年 运行 中 以 
下 不 可 恢复 的 内 存 错误 出 现 的 比率 : 

e 仅 采 用 奇偶 校 验 : 约 有 90 000 次 不 可 恢复 (或 不 可 检测 ) 的 错误 ， 即 每 17 分 钟 出 现 

一 次 
@ 仅 采用 SEC / DED : 约 有 3500 次 不 可 恢复 (或 不 可 检测 ) 的 错误 ， 即 每 7.5 小 时 出 
现 一 次 。 

@ 采用 chipkill: 有 6 次 不 可 恢复 (或 不 可 检测 ) 的 错误 ， 即 每 两 个 月 出 现 一 次 。 
因此 ，chipkill 是 仓储 级 计算 机 需要 采用 的 技术 。 

畔 王国 带 虽然 存储 器 系统 出 现 1 位 错 或 2 位 错 的 情况 比较 典型 ， 但 网 络 系统 中 可 能 会 
出 现 突 发 性 错误 。 一 种 解决 方案 称 为 循环 宛 余 校 验 。 对 于 一 个 位 的 数据 块 ， 发 送 端 产 生 一 
个 n-k 位 的 帧 校 验 序列 。 这 样 最 终 发 送出 n 位 序列 ， 并 且 该 序列 构成 的 数字 可 以 被 菜 个 数 整 
除 。 接 收 端 那个 数 去 除 接收 到 的 帧 ， 如 果 余 数 为 0， 则 认为 没有 错误 ; 如 果 余 数 不 为 0， 则 
接收 端 拒绝 该 消息 ， 并 要 求 发 射 端 再 次 发 送 。 从 第 3 章 不 难 猜测 到 ,使 用 移 位 寄存 器 可 以 很 
容易 地 计算 某 些 二 和 进 制 数 的 除法 ， 这 使 得 即使 在 硬件 资源 很 珍贵 的 时 代 ，CRC 码 也 被 广泛 使 
用 。 更 进一步 ， 里 德 一 所 罗 门 (Reed-Solomon) 码 使 用 伽 罗 瓦 (Galois) 域 来 纠正 多 位 传输 
错误 ， 数 据 被 看 作 多 项 式 的 系数 ， 校 验 码 看 作 多 项 式 的 值 。 里 德 - 所 罗 门 的 计算 复杂 度 远 高 
于 二 进 制 除法 的 复杂 度 ! 
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5.6 虚拟 机 


虚拟 机 (virtual machine) 最 早出 现 于 20 世纪 60 年 代 中 期 ， 多 年 来 一 直 是 大 型 机 的 重要 
组 成 部 分 。 尽 管 在 20 世纪 80 和 90 年代， 虚拟 机 大 多 被 单 用 户 个 人 计算 机 所 忽视 。 但 由 于 
以 下 几 个 因素 ,最 近 虚 拟 机 又 重新 受到 关注 : 

。 在 现代 计算 机 系统 中 ， 隔 离 和 安全 的 重要 性 日 益 增加 。 

e 标准 操作 系统 在 安全 性 和 可 靠 性 方面 存在 缺陷 。 

e 许多 不 相关 用 户 共 享 一 台 计 算 机 ， 特 别 是 云 计 算 。 

e 几 十 年 来 ， 处 理 器 速度 大 幅 增加 ， 这 使 得 虚拟 机 的 开销 变 得 可 以 接受 。 

最 广泛 的 虚拟 机 的 定义 包括 所 有 基本 的 仿真 方法 ， 这 些 方 法 提供 标准 软件 接口 ， 例 如 
Java VM。 本 节 介 绍 虚 拟 机 如 何在 二 进 制 指令 系统 体系 结构 (JISA) 的 层次 上 ， 提 供 一 个 完整 
的 系统 级 环境 。 虽 然 有 些 虚拟 机 在 本 地 硬件 上 运行 不 同 的 ISA， 但 我 们 假设 它们 都 能 与 硬件 
匹配 。 这 些 虚拟 机 被 称 为 (操作 ) 系统 虚拟 机 。 例 如 IBM VM / 370、VirtualBox 、VMware 
ESX Server 和 Xen。 

系统 虚拟 机 让 用 户 觉得 自己 拥有 包括 操作 系统 副本 在 内 的 整 台 计算 机 。 一 台 运 行 多 个 虚 
拟 机 的 计算 机 可 以 支持 多 个 不 同 的 操作 系统 。 在 传统 平台 上 ， 单 个 操作 系统 拥有 所 有 硬件 资 
源 ， 但 对 于 虚拟 机 ， 多 个 操作 系统 共享 硬件 资源 。 

支持 虚拟 机 的 软件 被 称 为 虚拟 机 监视 器 ( VMM) 或 管理 程序 ，VMM 是 虚拟 机 技术 的 
核心 。 底 层 硬 件 平台 被 称 为 主机 ( host)， 它 的 资源 被 客户 端 ( guest) 虚拟 机 共享 。VMM 决 
定 如 何 将 虚拟 资源 映射 到 物理 资源 : 物理 资源 可 能 是 分 时 共享 、 划 分 甚至 是 软件 模拟 的 。 
VMM 比 传统 操作 系统 小 得 多 ， 一 个 VMM 的 隔离 区 可 能 只 有 10 000 行 代码 。 

尽管 我 们 所 感 兴趣 的 在 于 虚拟 机 能 够 提供 保护 功能 ， 但 虚拟 机 还 有 两 个 具有 商业 价值 的 
优点 : 

1. 管理 软件 。 虚 拟 机 提供 一 个 可 以 运行 整个 软件 堆 的 抽象 ， 甚 至 包括 像 DOS 这 样 的 旧 
操作 系统 。 虚 拟 机 的 典型 部 署 可 能 是 : 一 些 虚 拟 机 运行 旧 的 操作 系统 ， 多 数 虚 拟 机 运行 当前 
稳定 的 操作 系统 版 本 ,少数 虚拟 机 测试 下 一 个 操作 系统 版 本 。 

2. 管理 硬件 。 使 用 多 台 服 务 器 的 一 个 目的 是 使 每 个 应 用 程序 运行 在 一 台独 立 的 、 有 着 与 
之 兼容 的 操作 系统 的 计算 机 上 ， 因 为 这 种 分 离 可 以 提高 可 靠 性 。 虚 拟 机 使 这 些 分 离 的 软件 堆 
独立 运行 ， 但 共享 硬件 ， 从 而 合并 了 服务 器 的 数量 。 男 一 个 例子 是 , 一些 VMM 支持 将 正在 
运行 的 VM 移植 到 另 一 台 计 算 机 上 ， 以 平衡 负载 或 在 硬件 发 生 故 障 时 实施 迁移 。 

[ 咕 视 到 名 伴 狗 加 | 亚 马 过 网 络 服务 (AWS) 在 其 云 计算 平台 中 使 用 虚拟 机 提供 EC2， 有 
以 下 五 个 原因 : 

1. 多 个 用 户 共享 相同 的 服务 器 时 ，AWS 可 保护 用 户 免 受 彼此 的 影响 。 

2. 它 简 化 了 仓储 级 计算 机 上 的 软件 分 布 。 用 户 安装 一 个 虚拟 机 镜像 ， 并 配置 合适 的 软 
件 ，AWS 为 用 户 分 配 所 需 的 虚拟 机 镜像 。 

3. 在 用 户 完 成 工作 时 ， 用 户 (和 AWS) 可 以 可 靠 地 “ 杀 死 ”虚拟 机 以 控制 资源 的 使 用 。 

4. 虚拟 机 隐藏 了 运行 用 户 软件 的 硬件 的 特性 ， 这 意味 着 AWS 可 以 继续 使 用 旧 服 务 器 同 
时 引入 新 的 更 高 效 的 服务 器 。 用 户 希 望 获得 的 性 能 与 “EC2 计算 单元 ”匹配 ，AWS 将 其 定 
义 为 “与 1.0-1.2 GHz 2007 AMD Opteron 或 2007 Intel Xeon 处 理 器 相等 的 CPU 能 力 ”。 根 
据 摩尔 定律 ， 新 的 服务 器 显然 能 比 旧 的 服务 器 提供 更 多 的 EC2 计算 单元 , 但 只 要 经 济 实惠 ， 
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AWS 就 可 以 继续 出 租 旧 服务 器 。 

5.VMM 可 以 控制 虚拟 机 使 用 处 理 器 、 网 络 和 磁盘 的 比例 ， 这 使 AWS 可 以 在 相同 底层 
服务 器 上 提供 不 同类 型 的 服务 ， 这 些 服 务 对 应 不 同 的 价格 。 例 如 ，2012 年 AWS 提供 了 从 每 
小 时 0.08 美元 的 小 型 标准 服务 到 每 小 时 3.10 美元 的 高 I/ O 特大 型 服务 等 14 种 服务 。 

一 般 来 说 ， 处 理 器 虚拟 化 的 开销 取决 于 工作 负载 。 用 户 级 处 理 器 绑 定 的 程序 没有 虚拟 化 
开销 ， 因 为 操作 系统 很 少 被 调用 ， 所 以 一 切 都 以 本 地 速度 运行 。LO 密集 型 工作 负载 通常 也 
是 操作 系统 密集 型 的 ， 因 为 要 执行 很 多 系统 调用 和 特权 指令 ， 从 而 导致 很 高 的 虚拟 化 开销 。 
另 一 方面 ， 如 果 IO 密集 型 工作 负载 也 是 受 限 于 IO 的 ,那么 处 理 器 虚拟 化 的 开销 可 以 被 完 
全 隐藏 ， 因 为 处 理 器 通常 处 于 空闲 状态 中 等 待 UO。 

开销 取决 于 VMM 要 模拟 的 指令 数量 以 及 模拟 每 条 指令 需要 多 少时 间 。 因 此 ， 当 客户 端 
虚拟 机 与 主机 运行 相同 的 ISA 时 ， 正 如 我 们 假设 的 那样 ， 体 系 结构 和 VMM 的 目标 是 尽 可 能 
直接 在 本 地 硬件 上 运行 所 有 的 指令 。 


5.6.1 虚拟 机 监视 器 的 必 备 条 件 


虚拟 机 监视 器 需要 做 什么 ? 它 为 客户 端 软件 提供 软件 接口 ， 隔 离 每 个 客户 端的 状态 ， 并 
且 必 须 保护 自己 免 受 客户 端 软件 (包括 客户 端 操作 系统 ) 的 侵害 。 定 性 的 需求 是 : 
。 除了 与 性 能 相关 的 行为 或 由 于 多 个 VM 共享 所 导致 的 固定 资源 的 限制 外 ， 客 户 端 软件 
应 该 像 在 本 地 硬件 上 一 样 在 虚拟 机 上 运行 。 
。 客户 端 软件 不 能 直接 改变 实际 系统 资源 的 分 配 。 
为 了 “虚拟 化 ”处 理 器 ，VMM 必须 控制 几乎 所 有 事情 : 特权 态 的 访问 、IO、 例 外 和 中 
断 一 一 即使 客户 端 虚拟 机 和 当前 运行 的 操作 系统 只 是 临时 使 用 它们 。 
例如 ， 在 发 生 定时 器 中 断 时 ，VMM 将 挂 起 当前 正在 运行 的 客户 端 虚拟 机 、 保 存 状 态 、 
处 理 中 断 ， 确 定 下 一 个 要 运行 的 客户 端 虚 拟 机 ， 并 读 取 其 状态 。 通 过 VMM 为 依赖 于 定时 器 
中 断 的 客户 端 虚拟 机 提供 虚拟 定时 器 并 模拟 定时 器 中 断 。 
为 方便 管理 ，VMM 必须 拥有 比 客户 虚拟 机 更 高 的 权限 ， 其 中 用 户 虚 拟 机 通常 在 用 户 模 
式 运行 ， 这 也 确保 了 任何 特权 指令 的 执行 都 将 由 VMM 人 处理。 支持 VMM 的 基本 系统 要 求 是 : 
e 至 少 有 两 种 处 理 器 模式 : 系统 模式 和 用 户 模式 。 
。 特权 指令 集合 只 能 在 系统 模式 下 使 用 ， 如 果 在 用 户 模式 下 执行 将 会 导致 内 陷 ; 所 有 系 
统 资源 只 能 通过 这 些 指令 控制 。 


5.6.2 ”指令 系统 体系 结构 (缺乏 ) 对 虚拟 机 的 支持 


如 果 在 设计 ISA 时 考虑 到 虚拟 机 ， 减 少 必须 由 VMM 执行 的 指令 数量 并 提高 其 仿真 速度 
就 相对 容易 。 人 允许 虚拟 机 直接 在 硬件 上 执行 的 体系 结构 被 冠 以 可 虚拟 化 的 名 称 ，IBM 370 和 
RISC-V 体系 结构 就 是 如 此 。 

由 于 虚拟 机 仅 在 最 近 才 被 考虑 应 用 于 PC 和 服务 器 应 用 程序 ， 因 此 大 多 数 指令 系统 在 创 
建 时 没有 考虑 虚拟 化 。 这 些 指令 系统 包括 x86 和 大 多 数 RISC 架构 (包括 ARMv7 和 MIPS ) 。 

VMM 必须 确保 客户 系统 仅 与 虚拟 资源 交互 ， 因 此 传统 的 客户 操作 系统 在 VMM 顶层 运 
行 用 户 模式 程序 。 如 果 客 户 操 作 系 统 试图 通过 特权 指令 访问 或 修改 与 硬件 资源 相关 的 信息 
(例如 ， 读 或 写 允 许 中 断 的 状态 位 )， 那 么 它 会 陷入 VMM。 然 后 ，VMM 可 以 对 相应 实际 资源 
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进行 适当 的 更 改 。 

因此 ， 如 果 任 何 指令 试图 在 用 户 模式 下 执行 读 或 写 这 种 敏感 信息 而 产生 自 陷 ，VMM 会 
拦截 它 并 像 客 户 操作 系统 所 期 望 的 那样 ， 提 供 敏 感 信息 的 虚拟 版 本 。 

如 果 不 提供 上 述 支持 ， 必 须 采 取 其 他 措施 。VMM 要 采取 特殊 的 预防 措施 来 定位 所 有 有 
问题 的 指令 ， 并 确保 它们 能 被 客户 操作 系统 正确 执行 ， 这 在 增加 VMM 的 复杂 性 同时 也 降低 
了 VM 的 运行 性 能 。 


5.6.3 ”保护 和 指令 系统 体系 结构 


保护 需要 依靠 体系 结构 和 操作 系统 的 共同 努力 ， 但 是 随 着 虚拟 存储 的 广泛 使 用 ， 体 系 结 
构 设 计 者 不 得 不 修改 现 有 指令 系统 体系 结构 中 一 些 不 方便 的 细节 。 

例如 ，x86 指令 POPF 执行 从 存储 器 中 的 堆栈 顶部 加 载 数据 至 标志 寄存 器 。 其 中 一 个 标 
志 是 中 断 使 能 (IE) 标志 。 如 果 在 用 户 模式 下 执行 POPF 指令 ， 不 会 发 生 内 陷 ， 而 是 会 改变 
除 正 以 外 的 所 有 标志 位 。 如 果 在 系统 模式 下 ， 这 条 指令 确实 会 改变 下 E 位 。 但 是 有 一 个 问 
题 ， 运 行 在 虚拟 机 用 户 模式 下 的 客户 操作 系统 希望 看 到 IE 位 的 改变 。 

历史 上 ，IBM 大 型 机 硬件 和 VMM 采取 以 下 三 个 步骤 来 提高 虚拟 机 性 能 : 

1. 降低 处 理 器 虚拟 化 的 开销 。 

2. 降低 由 虚拟 化 引起 的 中 断 开销 。 

3. 将 中 断交 给 相应 的 VM 而 不 调用 VMM， 从 而 降低 中 断 开销 。 

在 2006 年， AMD 和 Intel 提出 新 的 计划 尽力 满足 第 一 点 ， 即 降低 处 理 器 虚拟 化 的 开销 。 
体系 结构 和 VMM 需要 经 过 多 少 代 的 改进 才能 完全 满足 上 面 三 点 ? 21 世纪 的 虚拟 机 需要 经 
过 多 长 时 间 才 能 像 20 世纪 70 年 代 的 IBM 大 型 机 VMM 一 样 有 效 ? 这 些 都 是 令 人 感 兴趣 的 
研究 。 

| 姨 锚 羡 通 | 在 用 户 模式 下 运行 时 ，RISC-V 可 以 使 所 有 特权 指令 内 陷 ， 因 此 它 支持 传统 
虚拟 化 ， 其 中 客户 操作 系统 以 用 户 模式 运行 ，VMM 以 管理 模式 运行 。 


5.7 虚拟 存储 


在 前 面 的 章节 中 ， 我 们 知道 了 cache 如 何 对 程序 中 最 近 访 问 的 ”| 现在 的 系统 是 这 样 的 ， 对 
代码 和 数据 提供 快速 访问 。 同 样 ， 主 存 可 以 为 通常 由 磁盘 实现 的 辅 | 程序 员 来 说 ,组 合 的 存储 
助 存储 充当 “ cache”。 这 种 技术 被 称 为 虚拟 存储 。 从 历史 上 看 ， 提 | 全 入 于 六 全 下属 全 
出 虚拟 存储 的 主要 动机 有 两 个 ;允许 在 多 个 程序 之 间 高 效 安全 地 共 | 动 发 生 的 - 

享 内 存 ， 例如 云 计 算 的 多 个 虚拟 机 所 需 的 内 存 ， 以 及 消除 小 而 受 限 Kilburn 佬 ,One-Level 
的 主 存 容量 对 程序 设计 造成 的 影响 。50 年 后 ， 第 一 条 变 成 主要 设计 【> Se /192 
动机 。 

当然 ， 为 了 允许 多 个 虚拟 机 共享 内 存 ， 必 须 保护 虚拟 机 免 受 其 | 庶 拟 存储 ， 一 种 将 主 在 看 
他 虚拟 机 影响 ， 确 保 程序 只 读 写 分 配给 它 的 那 部 分 主 存 。 主 存 只 需 | 作 辅助 存储 的 cache 技术 。 
存储 众多 虚拟 机 中 活跃 的 部 分 ， 就 像 cache 只 存放 一 个 程序 的 活跃 
部 分 一 样 。 因 此 ， 局 部 性 原理 支持 虚拟 存储 和 cache， 虚 拟 存储 允许 我 们 高 效 地 共享 处 理 器 
以 及 主 存 。 

在 编译 虚拟 机 时 ,无 法 知道 哪些 虚拟 机 将 与 其 他 虚拟 机 共享 存储 。 事 实 上 ， 共 享 存储 的 


大 而 刁 : 


虚拟 机 在 运行 时 会 动态 变化 。 由 于 这 种 动态 的 交互 作用 ， 我 们 希望 
将 每 个 程序 都 编译 到 它 自己 的 地 址 空间 中 一 一 只 有 这 个 程序 能 访问 
的 一 系列 存储 位 置 。 虚 拟 存储 实现 了 将 程序 地 址 空间 转换 为 物理 地 
址 。 这 种 地 址 转换 处 理 加 强 了 各 个 程序 地 址 空间 之 间 的 保护 。 

虚拟 内 存 的 第 二 个 动机 是 允许 单 用 户 程序 使 用 超出 内 存 容 量 的 
内 存 。 以 前 ， 如 果 一 个 程序 对 于 存储 器 来 说 太 大 ， 程 序 员 应 该 调整 
它 。 程 序 员 将 程序 划分 成 很 多 段 ， 并 将 这 些 段 标记 为 互 斥 的 。 这 些 
程序 段 在 执行 时 由 用 户 程序 控制 载 人 或 换 出 ， 程 序 员 确保 程序 在 任 
何 时候 都 不 会 访问 未 载 人 的 程序 段 ， 并 且 载 人 的 程序 段 不 会 超过 内 
存 的 总 容量 。 传 统 的 程序 段 被 组 织 为 模块 ， 每 个 模块 都 包含 代码 和 
数据 。 不 同 模块 之 间 的 过 程 调用 将 导致 一 个 模块 覆盖 掉 男 一 个 模块 。 

可 以 想象 ， 这 种 责任 对 程序 员 来 说 是 很 大 的 负担 。 虚 拟 存储 的 
发 明 就 是 为 了 将 程序 员 从 这 些 困 境 中 解脱 出 来 ， 它 自动 管理 由 主 存 
(有 时 称 为 物理 内 存 ， 以 区 分 虚拟 存储 ) 和 辅助 存储 所 代表 的 两 级 存 
储 层次 结构 。 

虽然 虚拟 存储 和 cache 的 工作 原理 相同 ， 但 不 同 的 历史 根源 导 
致 它们 使 用 的 术语 不 同 。 虚 拟 存储 块 被 称 为 页 ， 虚 拟 存储 失效 被 称 
为 缺 页 失效 。 在 虚拟 存储 中 , 处理 器 产生 一 个 虚拟 地 址 ， 该 地 址 通 
过 软 硬 件 转换 为 一 个 物理 地 址 ， 物 理 地 址 可 访问 主 存 。 图 5-25 显示 
了 分 页 的 虚拟 存储 被 映射 到 主 存 中 。 这 个 过 程 被 称 为 地 址 映射 或 地 
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| 物理 地 址 : 主 存 的 地 址 。 


保护 : 一 组 保护 机 制 ， 确 
保 共享 处 理 器 、 内 存 、1/O 
设备 的 多 个 进程 之 间 没 有 
故意 地 、 无 意 地 读 写 其 他 
进程 ， 这 些 保护 机 制 可 以 
将 操作 系统 和 用 户 的 进程 
隔离 开 来 。 


缺 页 失效 : 被 访问 的 页 不 
在 主 存 中 的 事件 。 


虚拟 地 址 : 虚拟 空间 的 地 
址 ， 当 访问 内 存 时 需要 通 
过 地 址 映射 转换 为 物理 
地 址 。 


地 址 转换 : 也 称 为 地 址 
映射 。 访 问 内 存 时 将 虚 
拟 地 址 映射 为 物理 地 址 的 
过 程 。 


址 转换 。 如 今 ， 由 虚拟 存储 控制 的 两 级 存储 层次 结构 通常 是 个 人 移动 设备 中 的 DRAM 和 内 
存 ， 在 服务 器 中 是 DRAM 和 磁盘 ( 见 5.2 节 )。 如 果 回 到 我 们 的 图 书馆 类 比 ， 可 以 将 虚拟 地 
址 视 为 书 名 ， 将 物理 地 址 视 为 图 书馆 中 该 书 的 位 置 ， 它 可 能 是 图 书馆 的 索 书 号 。 

虚拟 内 存 还 通过 重 定位 简化 了 执行 时 程序 的 载 入 。 在 用 地 址 访问 存储 之 前 ， 重 定位 将 
程序 使 用 的 虚拟 地 址 映射 到 不 同 的 物理 地 址 。 重 定位 允许 将 程序 载 入 主 存 中 的 任何 位 置 。 此 
外 ,现今 所 有 的 虚拟 存储 系统 都 将 程序 重 定位 成 一 组 固定 大 小 的 块 (页 )， 从 而 不 需要 寻找 连 
续 内 存 块 来 放置 程序 ; 相反 ， 操 作 系 统 只 需要 在 主 存 中 找到 足够 数量 的 页 。 

在 虚拟 存储 中 ， 地 址 被 划分 为 虚拟 页 号 和 页 内 偏 移 。 图 5-26 显示 了 虚拟 页 号 到 物理 页 
号 的 转换 。 虽 然 RISC-V 有 64 位 地 址 ， 但 其 中 的 高 16 位 未 使 用 ， 因 此 要 映射 的 地 址 有 48 
位 。 假 定 物理 内 存 容 量 为 1TiB 或 2” 字 节 ， 则 需要 40 位 地 址 。 物 理 页 号 构成 物理 地 址 的 高 
位 部 分 。 页 内 偏 移 不 变 ， 它 构成 物理 地 址 的 低位 部 分 。 页 内 偏 移 的 位 数 决定 页 的 大 小 。 虚 拟 
地 址 可 寻 址 的 页 数 与 物理 地 址 可 寻 址 的 页 数 可 以 不 同 。 拥 有 比 物理 页 更 多 数量 的 虚拟 页 是 一 
个 没有 容量 限制 的 虚拟 存储 的 基础 。 

缺 页 失效 的 高 成 本 是 许多 设计 选择 虚拟 存储 系统 的 原因 。 磁 盘 的 缺 页 失效 处 理 需 要 数 
百 万 个 时 钟 周期 。( 图 5-5 显示 主 存 延 迟 比 磁盘 快 大 约 10 万 倍 。) 这 种 巨大 的 失效 代价 (主要 
由 获得 标准 页 大 小 的 第 一 个 字 所 花费 的 时 间 来 确定 ) 导致 了 设计 虚拟 存储 系统 时 的 几 个 关键 
决策 : 

e 页 应 该 足够 大 以 分 摊 长 访问 时 间 。 目 前 典型 的 页 大 小 从 4KiB 到 64KiB 不 等 。 支 持 

32KiB 和 64KiB 页 的 新 型 桌面 和 服务 器 正在 研发 ， 但 是 新 的 族人 式 系统 正 朝 另 一 个 
方向 发 展 ， 页 大 小 为 1KiB。 
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虚拟 地 址 物理 地 址 






磁盘 地 址 


图 5-25 在 虚拟 内 存 中 ， 内 存 块 ( 称 为 页 ) 从 一 组 地 址 〈 称 为 虚拟 地 址 ) 映射 到 另 一 组 〈 称 为 
物理 地 址 )。 处 理 器 产生 虚拟 地 址 ， 而 使 用 物理 地 址 访问 内 存 。 虚 拟 存储 和 物理 存储 
都 被 划分 为 页 ， 因 此 一 个 虚拟 页 被 映射 到 一 个 物理 页 。 当 然 ， 虚 拟 页 也 可 能 不 在 主 
存 中 ， 因 此 不 能 映射 到 物理 地 址 ; 在 这 种 情况 下 ， 页 被 存在 磁盘 上 。 物 理 页 也 可 以 
被 两 个 指向 相同 物理 地 址 的 虚拟 地 址 共享 ， 用 于 使 两 个 不 同 的 程序 共享 数据 或 代码 


虚拟 地 址 


Physical page number Page offset 


物理 地 址 
图 5-26 虚拟 地 址 到 物理 地 址 的 映射 。 页 大 小 为 2"=4KiB。 由 于 物理 页 号 有 28 位 ， 内 
存 中 物理 页 数 为 2。 因此 ， 主 存 最 大 容量 为 1TiB ， 而 虚拟 地 址 空间 为 256TiB。 
RISC-V 允许 物理 内 存 容量 达到 1PiB ， 我 们 选择 1TiB 是 因为 这 对 于 2016 年 的 很 多 
计算 机 而 言 已 经 足够 


。 能 降低 缺 页 失效 率 的 组 织 结构 很 有 吸引 力 。 这 里 使 用 的 主要 技术 是 允许 存储 中 的 页 以 
全 相 联 方式 放置 。 

。 缺 页 失效 可 以 由 软件 处 理 ， 因 为 与 磁盘 访问 时 间 相 比 ， 这 样 的 开销 将 很 小 。 此 外 ， 软 
件 可 以 用 巧妙 的 算法 来 选择 如 何 放置 页 面 ， 只 要 失效 率 减少 很 小 一 部 分 就 足以 弥补 算 
法 的 开销 。 

。 写 穿 透 策 略 对 于 虚拟 存储 不 合适 ， 因 为 写 入 时 间 过 长 。 相 反 ， 虚 拟 存储 系统 采用 写 回 
策略 。 

下 面 几 节 将 把 这 些 因素 融入 虚拟 存储 的 设计 中 去 。 

说 细 阐述 我们 说 明了 虚拟 存储 的 动机 : 为 了 允许 许多 虚拟 机 共享 相同 的 存储 。 但 设计 

虚拟 存储 最 初 的 原因 是 为 了 在 分 时 系统 中 ， 让 许多 程序 可 以 共享 一 台 计 算 机 。 由 于 当今 很 多 
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读者 没有 使 用 分 时 系统 的 经 验 ， 本 节 使 用 虚拟 机 作为 引入 虚拟 存储 的 动机 。 

| 吁 开 曾 过 | RISC-V 支持 各 种 虚拟 存储 的 配置 。 除 了 适用 于 2016 年 的 大 型 服务 器 的 48 
位 虚拟 地 址 方案 之 外 ， 该 架构 还 可 以 支持 39 位 和 57 位 的 虚拟 地 址 。 所 有 这 些 配置 都 使 用 4 
KiB 大 小 的 页 面 。 

| 肝 绩 曾 通 对 于 服务 器 甚至 个 人 电脑 ，32 位 地 址 的 处 理 器 已 经 很 有 问题 了 。 通 常 我们 认 
为 虚拟 地 址 比 物 理 地 址 大 得 多 ， 但 当 处 理 器 地 址 宽度 相对 于 存储 器 技术 而 言 较 小 时 ， 可 能 会 
出 现 相反 的 情况 。 单 个 程序 或 虚拟 机 不 会 受益 ， 但 同时 运行 的 一 组 程序 或 虚拟 机 可 能 由 于 无 
须 从 主 存 中 换 出 ， 或 可 以 在 并 行 处 理 器 上 运行 而 受益 。 

| 请 氏 羡 通 本 书 中 有 关 虚拟 存储 的 讨论 集中 于 页 式 存储 ， 即 使 《| 段 式 存储 : 一 种 可 变 长 度 
用 固定 大 小 的 块 。 还 有 一 种 可 变 长 度 块 的 机 制 称 为 段 式 存储 。 在 段 ee 
式 存储 中 ， 地 址 由 两 部 分 组 成 : 段 号 和 段 内 偏 移 。 自 号 被 映射 到 物 | 币 到 物理 好 证 的 自 号 和 眉 
理 地 址 ， 与 段 内 偏 移 相 加 得 到 实际 的 物理 地 址 。 由 于 段 的 大 小 可 变 ， | 内 偏 移 。 
因此 还 需要 进行 边界 检查 以 确定 偏 移 量 是 否 在 段 内 。 分 段 的 主要 应 
用 是 支持 更 强大 的 保护 和 地 址 空间 的 共享 。 大 多 数 操作 系统 教科 书 更 多 地 讨论 分 段 ， 以 及 如 
何 利 用 分 段 来 从 钠 辑 上 共享 地 址 空间 。 分 段 的 主要 缺点 是 将 地 址 空间 分 割 成 逻辑 上 独立 的 部 
分 ， 因 此 这 些 块 就 由 两 部 分 地 址 控制 一 一 段 号 和 段 内 偏 移 。 相 比 而 言 ， 分 页 使 得 页 号 和 页 内 
偏 移 的 界限 对 于 程序 员 和 编译 器 都 不 可 见 。 

分 段 也 曾 被 用 作 不 改变 计算 机 字 长 而 扩展 地 址 空间 的 方法 。 然 而 这 些 尝试 并 未 成 功 ， 这 
是 由 于 程序 员 和 编译 器 必须 意识 到 使 用 两 部 分 地 址 所 带 来 的 不 便 和 性 能 损失 。 

许多 体系 结构 将 地 址 空间 划分 为 固定 大 小 的 大 块 以 简化 操作 系统 和 用 户 程序 之 间 的 保 
护 ， 并 提高 分 页 实现 的 效率 。 虽 然 这 些 划分 通常 被 称 为 “ 段 "， 但 这 种 机 制 比 可 变 大 小 的 分 
段 简单 得 多 ， 并 且 对 用 户 程序 不 可 见 。 稍 后 将 详细 讨论 。 


5.7.1 页 的 存放 和 查找 


由 于 缺 页 失效 的 代价 非常 高 ， 设 计 人 员 通 过 优化 页 的 放置 来 降低 缺 页 失效 频率 。 如 果 人 允 
许 一 个 虚拟 页 映射 到 任何 一 个 物理 页 ， 那 么 在 发 生 缺 页 失效 时 ， 操 作 系统 可 以 选择 任意 一 个 
页 进行 替换 。 例 如 ， 操 作 系 统 可 以 使 用 复杂 的 算法 和 复杂 的 数据 结构 来 跟踪 页 面 使 用 情况 ， 
来 选择 在 较 长 一 段 时 间 内 不 会 被 用 到 的 页 。 使 用 先进 而 灵活 的 替换 策略 降低 了 缺 页 失效 率 ， 
并 简化 了 全 相 联 方 式 下 页 的 放置 。 

正如 5.4 节 所 述 ， 全 相 联 映射 的 困难 在 于 项 的 定位 ， 因 为 它 可 “| 页 表 ， 在 虚拟 存储 系统 中 
以 在 较 高 存储 层次 结构 中 的 任何 位 置 。 全 部 进行 检索 是 不 切实 际 的 。 | 保存 着 虚拟 地 址 和 物理 地 
在 虚拟 存储 系统 中 ， 我 们 使 用 一 个 索引 主 存 的 表 来 定位 页 ， 这 个 结 py ei ge ee 
构 称 为 页 表 ， 它 被 存在 主 存 中 。 页 表 使 用 虚拟 地 址 中 的 页 号 作为 索 | 山 器 反 页 号 来 未 中 ， 各 果 
引 ， 找 到 相应 的 物理 页 号 。 每 个 程序 都 有 自己 的 页 表 ， 它 将 程序 的 “| 这 个 页 在 内 存 中 ， 页 表 中 
虚拟 地 址 空间 映射 到 主 存 。 在 图 书馆 类 比 中 ， 页 表 对 应 于 书 名 和 图 “| 的 对 应 项 包含 该 页 对 应 的 
书馆 位 置 之 间 的 映射 。 就 像 卡片 目录 可 能 包含 学 校 中 另 一 个 图 书馆 | 物理 页 于 。 
中 书 的 表 项 ， 而 不 仅仅 是 本 地 的 分 馆 ， 我 们 将 看 到 该 页 表 也 可 能 包 
含 不 在 内 存 中 的 页 的 表 项 。 为 了 表明 页 表 在 内 存 中 的 位 置 ， 硬 件 包含 一 个 指向 页 表 首 地 址 的 
寄存 器 ， 我 们 称 之 为 页 表 寄 存 器 。 现 在 假定 页 表 存 在 存储 器 中 一 个 固定 的 连续 区 域 中 。 

| 硬 秤 7 软 种 接 国 ”页 表 与 程序 计数 器 和 寄存 器 一 起 确定 了 一 个 虚拟 机 的 状态 。 如 果 我 们 
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想 让 为 一 个 虚拟 机 使 用 处 理 器 ， 必 须 保存 这 个 状态 。 在 恢复 此 状态 后 ， 虚 拟 机 可 以 继续 执 
行 。 我 们 通常 称 这 个 状态 为 一 个 进程 。 如 果 一 个 进程 占用 了 处 理 器 ， 那 么 这 个 进程 是 活跃 
的 ;和 否则 是 非 活跃 的 。 操 作 系 统 可 以 通过 载 入 进程 的 状态 来 激活 进程 ， 包 括 程序 计数 器 ， 进 
程 将 从 程序 计数 器 中 保存 的 值 处 开始 执行 。 

进程 的 地 址 空间 ， 以 及 它 在 内 存 中 可 以 访问 的 所 有 数据 ， 都 由 其 存储 在 内 存 中 的 页 表 定 
义 。 操 作 系 统 并 不 保存 整个 页 表 ， 而 是 简单 地 载 入 页 表 寄 存 器 来 指向 它 想 要 激活 的 进程 的 页 
表 。 由 于 不 同 的 进程 使 用 相同 的 虚拟 地 址 ， 因 此 每 个 进程 都 有 各 自 的 页 表 。 操 作 系 统 负责 分 
配 物 理 内 存 并 更 新 页 表 ， 这 样 不 同 进程 的 虚拟 地 址 空间 不 会 发 生 冲 突 。 我 们 很 快 会 看 到 ， 使 
用 分 离 的 页 表 也 可 以 分 别 保护 进程 。 

图 5-27 使 用 页 表 寄 存 器 、 虚 拟 地 址 和 被 指向 的 页 表 来 说 明 硬件 如 何 形成 物理 地 址 。 正 
如 在 cache 中 所 做 的 那样 ， 每 个 页 表 项 中 使 用 1 位 有 效 位 。 如 果 该 位 为 无 效 ， 则 该 页 就 不 在 
主 存 中 ， 发 生 一 次 缺 页 失效 。 如 果 该 位 为 有 效 ， 则 该 页 在 内 存 中 ， 并 且 该 项 包含 物理 页 号 。 


Page table register 


虚拟 地 址 









如 果 为 0， 则 该 页 
不 在 内 存 中 


物理 地 址 


图 5-27 使 用 虚拟 页 号 索引 页 表 以 获得 对 应 的 物理 地 址 部 分 。 假 设 地 址 为 48 位 。 页 表 指 针 
给 出 了 页 表 的 起 始 地 址 。 在 该 图 中 ， 页 大 小 为 2” 个 字 节 ， 即 4KiB。 虚 拟 地 址 空 
间 为 2” 字 节 或 256TiB， 物 理 地 址 空间 为 2” 字 节 ， 主 存 最 大 容量 为 1TiB。 如 果 
RISC-V 使 用 如 本 图 所 示 的 一 张 页 表 ， 则 页 表 中 的 表 项 数 将 为 2*， 即 大 约 640 亿 
个 表 项 。( 我 们 将 看 到 RISC-V 会 尽快 减少 表 项 数 。) 每 个 表 项 的 有 效 位 指示 映射 是 
否 合法 。 如 果 它 为 0%， 则 该 页 不 在 内 存 中 。 尽 管 图 中 显示 的 页 表 表 项 只 需 29 位 宽 ， 
但 为 了 寻 址 方便 ,通常 让 它 舍 人 到 2 的 宕 次 位 。RISC-V 中 的 页 表 项 是 64 位 宽 。 其 
他 位 则 用 来 存放 每 页 都 要 保留 的 基本 的 附加 信息 ， 如 保护 信息 
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由 于 页 表 包 含 了 每 个 可 能 的 虚拟 页 的 映射 ， 因 此 不 需要 标签 。 在 cache 术语 中 ,索引 是 
用 来 访问 页 表 的 ， 这 里 由 整个 块 地 址 即 虚拟 页 号 组 成 。 


5.7.2 缺 页 失效 


如 果 虚 拟 页 的 有 效 位 为 无 效 ， 则 会 发 生 缺 页 失效 。 操 作 系 统 获得 控制 。 这 种 控制 的 转移 
通过 例外 机 制 完成 ， 在 第 4 章 中 我 们 已 经 了 解 了 例外 机 制 ， 本 节 稍 后 将 再 次 讨论 。 一 旦 操作 
系统 得 到 控制 ， 它 必须 在 存储 层次 结构 的 下 一 级 〈 通 常 是 闪存 或 磁盘 ) 中 找到 该 页 ， 并 确定 
将 请 求 的 页 放 在 主 存 中 的 什么 位 置 。 

虚拟 地 址 本 身 并 不 会 立即 告诉 我 们 该 页 在 辅助 存储 中 的 位 置 。 回 到 图 书馆 的 类 比 ， 我 们 
无 法 仅 依靠 书 名 就 找到 图 书 的 具体 位 置 。 而 是 按 目 录 查找 ， 获 得 书 在 书架 上 的 位 置信 息 ， 比 
如 说 图 书馆 的 索引 书号 。 同 样 ， 在 虚拟 存储 系统 中 ， 我 们 必须 跟踪 记录 虚拟 地 址 空间 的 每 一 
页 在 辅助 存储 中 的 位 置 。 

由 于 我 们 无 法 提前 获知 存储 器 中 的 某 一 页 什么 时 候 将 被 替换 出 
去 ， 因 此 操作 系统 通常 会 在 创建 进程 时 为 所 有 页 面 在 闪存 或 磁盘 上 
创建 空间 。 这 个 空间 被 称 为 交换 区 。 那 时 ， 它 也 会 创建 一 个 数据 结 
构 来 记录 每 个 虚拟 页 在 磁盘 上 的 存储 位 置 。 该 数据 结构 可 以 是 页 表 
的 一 部 分 ， 或 者 可 以 是 具有 与 页 表 相 同 索 引 方 式 的 辅助 数据 结构 。 图 5-28 显示 了 一 个 保存 
物理 页 号 或 辅助 存储 器 地 址 的 单个 表 的 结构 。 


虚拟 页 号 


交换 区 : 为 进程 的 全 部 虚 
拟 地 址 空间 所 预 留 的 磁盘 


空间 。 





页 表 


物理 页 或 物理 存储 器 
Valid ”磁盘 地 址 
加 





图 5-28 页 表 将 虚拟 存储 器 中 的 每 一 页 映射 到 内 存 中 的 一 页 或 者 存储 层次 结构 下 一 层 的 一 页 
(磁盘 上 的 一 页 )。 虚 拟 页 号 用 来 检索 页 表 。 如 果 有 效 位 为 有 效 ， 页 表 提 供 虚 拟 页 对 
应 的 物理 页 号 (如 内 存 中 该 页 的 首 地 址 )。 如 果 有 效 位 为 无 效 ， 那 么 该 页 就 只 存在 
磁盘 上 的 某 个 指定 的 磁盘 地 址 。 在 许多 系统 中 ， 物 理 页 地 址 和 磁盘 页 地 址 的 表 在 逻 
辑 上 是 一 个 表 ， 但 是 保存 在 两 个 独立 的 数据 结构 中 。 因 为 即使 有 些 页 当前 不 在 内 存 
中 ,也 必须 保存 所 有 页 的 磁盘 地 址 ， 所 以 使 用 双 表 在 某 种 程度 上 是 合理 的 。 请 记 住 ， 
内 存 中 的 页 和 磁盘 上 的 页 大 小 相等 


操作 系统 还 会 创建 一 个 数据 结构 用 于 跟踪 记录 使 用 每 个 物理 地 址 的 是 哪些 进程 和 哪些 虚 
拟 地 址 。 发 生 缺 页 失效 时 ， 如 果 内 存 中 的 所 有 页 都 正在 使 用 ， 则 操作 系统 必须 选择 一 页 进行 
替换 。 因 为 我 们 希望 尽量 减少 缺 页 失效 次 数 ， 所 以 大 多 数 操作 系统 选择 它们 认为 近期 内 不 会 
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使 用 的 页 进行 替换 。 使 用 过 去 的 信息 预测 未 来 ， 操 作 系统 遵循 在 5.4 节 中 提 到 的 最 近 最 少 使 
用 (LRU) 替换 策略 。 操 作 系统 查找 最 近 最 少 使 用 的 页 ， 假 定 某 一 页 在 很 长 一 段 时 间 都 没有 
被 访问 ， 那 么 该 页 再 被 访问 的 可 能 性 比 最 近 经 常 访 问 的 页 的 可 能 性 要 小 。 被 替换 的 页 被 写 到 
辅助 存储 器 中 的 交换 区 。 如 果 还 不 是 很 明白 ， 可 以 把 操作 系统 看 成 男 一 个 进程 ， 而 那些 控制 
内 存 的 表 也 在 内 存 中 ; 这 看 起 来 似乎 有 些 矛盾 ， 稍 后 将 具体 解释 。 

四 于 种 史 软 位 磷 辣 】 更 完全 准确 地 执行 LRU 算法 的 代价 大 高 | 引用 位 ,也 称 为 使 用 但 
了 ， 因 为 每 次 存储 器 访问 时 都 需要 更 新 数据 结构 。 作 为 替代 ， 大 多 | 每 当 访问 一 个 页 面 时 该 位 
数 操作 系统 通过 跟踪 哪些 页 最 近 被 使 用 ， 哪 些 页 最 近 没有 用 到 来 近 | 被 置 位 ， 通 常用 来 实现 
仪 地 实现 LRU 算法 。 为 了 帮助 操作 系统 估算 最 近 最 少 使 用 的 页 ， | RU 或 其他 将 换 策 略 
RISC-V 计算 机 提供 了 一 个 引用 位 (reference bit) 或 者 称 为 使 用 位 
(use bit)， 当 一 页 被 访问 时 该 位 被 置 位 。 操 作 系 统 定期 将 引用 位 清 零 ， 然 后 再 重新 记录 ， 这 
样 就 可 以 判定 在 这 段 特定 时 间 内 哪些 页 被 访问 过 。 有 了 这 些 使 用 信息 ， 操 作 系 统 就 可 以 从 屠 
些 最 近 最 少 访问 的 页 中 选择 一 页 (通过 检查 其 引用 位 是 否 关闭 )。 如 果 硬 件 没有 提供 这 一 位 ， 
操作 系统 就 要 通过 其 他 的 方法 来 估计 哪些 页 被 访问 过 。 


5.7.3 支持 大 虚拟 地 址 空间 的 虚拟 存储 


图 5-27 的 标题 中 指出 ， 对 于 4KiB 大 小 的 页 ， 如 果 虚 拟 地 址 是 48 位 ， 并 采用 单 级 页 表 ， 
则 页 表 有 640 亿 (23 ) 个 表 项 。 由 于 RISC-V 每 个 页 表 项 中 为 8 个 字 节 ， 因 此 将 虚拟 地 址 
映射 到 物理 地 址 就 需要 0.5TiB 存储 空间 ! 而 且 ， 如 果 计 算 机 中 同时 有 成 百 的 进程 同时 运行 ， 
每 个 进程 都 有 自己 的 页 表 。 即 使 对 于 最 大 的 系统 ， 这 样 大 量 的 内 存 也 无 法 承受 。 

一 系列 技术 已 经 被 用 于 减少 页 表 所 需 的 存储 空间 。 以 下 五 种 技术 从 两 个 角度 解决 问题 ， 
一 是 减少 存放 页 表 所 需 的 最 大 存储 空间 ， 二 是 减少 用 于 存放 页 表 的 存储 空间 。 

1. 最 简单 的 技术 是 保留 界限 寄存 器 ， 限 制 给 定 进程 的 页 表 大 小 。 如 果 虚 拟 页 号 大 于 界限 
寄存 器 的 值 ， 那 么 表 项 将 被 添加 到 页 表 中 。 这 种 技术 允许 页 表 随 着 进程 消耗 空间 的 增多 而 增 
长 。 因 此 ， 只 有 当 进 程 使 用 了 许多 虚拟 页 时 ， 页 表 才 会 变 得 很 大 。 这 种 技术 要 求 地 址 空间 只 
向 一 个 方向 扩展 。 

2. 允许 地 址 空间 只 朝 一 个 方向 增长 并 不 够 ， 因 为 大 多 数 语言 都 需要 两 个 大 小 可 扩展 的 区 
域 : 一 个 区 域 容纳 栈 ， 另 一 个 区 域 容纳 堆 。 由 于 这 种 二 元 性 ， 划 分 页 表 并 使 其 可 以 从 最 高 地 
址 向 下 增长 ， 也 可 以 从 最 低地 址 向 上 增长 就 方便 多 了 。 这 意味 着 将 有 两 个 单独 的 页 表 和 两 个 
单独 的 界限 寄存 器 。 两 个 页 表 的 使 用 将 地 址 空间 分 成 两 段 。 地 址 的 高 位 决定 为 该 地 址 使 用 哪 
个 段 以 及 哪个 页 表 。 由 于 高 位 地 址 位 指定 段 ， 因 此 每 个 段 的 容量 可 以 等 于 一 半 的 地 址 空间 。 
每 个 段 的 界限 寄存 器 指定 当前 段 的 大 小 ， 并 以 页 为 单位 增长 。 与 5.7 节 第 二 个 “详细 阅 述 ” 
中 讨论 的 分 段 不 同 ， 这 种 形式 的 段 对 应 用 程序 是 不 可 见 的 ,但 是 对 操作 系统 可 见 。 这 种 方案 
的 主要 缺点 是 : 当地 址 空间 以 稀 玻 方式 而 不 是 连续 方式 被 访问 时 ， 它 不 能 很 好 地 工作 。 

3. 另外 一 种 减 小 页 表 容 量 的 方法 是 对 虚拟 地 址 应 用 哈 希 函数 ， 以 使 页 表 容 量 等 于 主 存 中 
物理 页 的 数量 。 这 种 结构 称 为 反 向 页 表 。 当 然 ， 使 用 反 向 页 表 的 查找 过 程 稍微 复杂 一 些 ， 因 
为 我 们 不 能 只 通过 索引 来 访问 页 表 。 

4. 为 减少 页 表 占 用 的 实际 主 存 ， 大 多 数 现代 系统 还 允许 将 页 表 再 分 页 。 虽 然 这 听 起 来 很 
复杂 ,但 是 它 的 工作 原理 与 虚拟 存储 相同 ， 即 允许 将 页 表 保 存在 虚拟 地 址 空间 中 。 男 外 ， 还 
必须 避免 一 些小 但 很 关键 的 问题 ， 比 如 无 止境 的 缺 页 失效 。 如 何 克 服 这 些 问 题 需要 描述 得 很 
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详细 ， 并 且 这 些 问 题 一 般 对 机 器 的 依赖 性 很 高 。 简 而 言 之 ， 为 了 解决 这 些 问题 ， 可 以 将 所 有 
页 表 放 置 在 操作 系统 的 地 址 空间 中 ， 并 至 少将 操作 系统 的 一 些 页 表 放 置 在 物理 地 址 空间 中 且 
总 是 存在 于 主 存 而 不 出 现在 二 级 存储 中 。 

5. 多 级 页 表 也 可 以 用 来 减少 页 表 存 储 的 总 量 ， 这 是 RISC-V 为 减少 地 址 转换 占用 的 内 存 
所 采用 的 解决 方案 。 图 5-29 显示 了 从 48 位 虚拟 地 址 到 4 KiB 页 的 40 位 物理 地 址 的 四 级 地 址 
转换 。 首 先 使 用 地 址 的 最 高 几 位 查看 0 级 页 表 中 的 地 址 ， 进 行 地址 转换 。 如 果 页 表 中 对 应 的 
表 项 有 效 ， 则 使 用 下 一 组 高 位 地 址 来 索引 第 0 级 页 表 表 项 指示 的 页 表 ， 依 此 类 推 。 因 此 ， 第 
0 级 页 表 将 虚拟 地 址 映射 到 512GiB (2” 字 节 ) 区 域 。 第 1 级 页 表 又 将 虚拟 地 址 映射 到 1GiB 
(2”) 区 域 。 再 下 一 级 页 表 将 其 映射 到 2MiB (22 ) 区 域 。 最 后 一 级 页 表 将 虚拟 地 址 映射 到 4 
KiB (22 ) 大 小 的 内 存 页 。 该 方案 允许 以 稀 朴 的 方式 访问 地 址 空间 (多 个 不 连续 的 段 可 以 同 
时 处 于 活跃 状态 )， 而 不 必 分 配 整个 页 表 。 这 种 方案 对 于 非常 大 的 地 址 空间 和 需要 非 连续 地 
址 分 配 的 软件 系统 特别 有 用 。 多 级 页 表 的 主要 缺点 是 地 址 转换 过 程 复 杂 。 
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图 5-29 RISC-V 使 用 四 级 表 将 48 位 虚拟 地 址 转换 为 40 位 物理 地 址 。 这 种 分 层 方 法 中 页 
表 很 小 ， 不 像 图 5-27 中 的 单个 页 面 就 需要 640 亿 个 页 表 项 。 转 换 的 每 一 步 都 使 用 
9 位 虚拟 地 址 来 查找 下 一 级 表 ， 直 到 虚拟 地 址 的 高 36 位 映射 到 对 应 4KiB 页 的 物 
理 地 址 。 每 个 RISC-V 页 表 项 都 是 8Byte 宽 ， 所 以 表 的 512 个 表 项 可 以 填充 一 个 
4KiB 的 页 。 管 理 员 页 表 基 址 寄存 器 (SPTIBR) 给 出 了 第 一 个 页 表 的 起 始 地 址 


5.7.4” 交 于 与 


访问 cache 和 主 存 的 时 间 相 差 几 十 到 几 百 个 时 钟 周 期 ， 如 果 采 用 写 穿 透 策略 ， 则 需要 一 
个 写 缓冲 区 向 处 理 器 隐藏 写 操作 的 延迟 。 在 虚拟 存储 系统 中 ， 写 人 存储 层次 结构 的 下 一 级 
(磁盘 ) 可 能 需要 数 百 万 个 处 理 器 时 钟 周期 ， 因此， 如 果 创 建 一 个 写 缓冲 区 ， 人 允许 系统 采用 
写 穿 透 的 方式 以 对 磁盘 进行 写 的 方法 是 完全 不 可 行 的 。 相 反 ， 虚 拟 存储 系统 必须 使 用 写 回 策 
略 ， 对 内 存 中 的 页 进行 单独 的 写 操作 ， 并 当 页 被 从 主 存 中 替换 出 时 ， 将 其 复制 到 辅助 存储 。 

[号 古 7 角 秤 接 卓 写 回 策略 在 虚拟 存储 系统 中 还 有 一 个 重要 优点 。 由 于 磁盘 传输 时 间 小 
于 其 访问 时 间 ， 因此， 将 整个 页 复制 回 磁盘 的 效率 高 于 将 单个 字 写 回 。 虽 然 写 回 操 作 比 传输 
单独 的 字 更 快 ， 但 开销 却 很 大 。 因 此 ， 在 选择 替换 页 时 ， 我 们 希望 知道 是 否 需要 复制 该 页 。 





为 了 追踪 页 面 从 被 读 入 内 存 以 后 是 否 被 写 过 ， 向 页 表 中 添加 一 个 脏 位 。 当 一 页 中 任何 字 被 写 
入 时 ， 脏 位 被 置 位 。 如 果 操 作 系 统 选择 要 替换 某 一 页 ， 脏 位 指示 在 该 页 所 占 内存 让 给 另 一 页 
之 前 ， 是 否 需要 将 该 页 写 回 磁盘 。 因 此 ， 修 改 后 的 页 也 通常 称 为 脏 页 。 


5.7.5 ”加 快 地 址 转换 : TLB 


由 于 页 表 存储 在 主 存 中 ， 因 此 程序 每 个 访 存 请 求 至 少 需 要 两 次 访 存 : 第 一 次 访 存 获得 物 
理 地 址 ， 第 二 次 访 存 获得 数据 。 提 高 访问 性 能 的 关键 在 于 页 表 的 访问 局 部 性 。 当 使 用 虚拟 页 
号 进行 地 址 转换 时 ， 它 可 能 很 快 再 次 被 用 到 ， 因 为 对 该 页 中 字 的 引用 同时 具有 时 间 局 部 性 和 
空间 局 部 性 。 

因此 ， 现 代 处 理 器 包含 一 个 特殊 的 cache 以 追踪 记录 最 近 使 用 | 快 表 : 用 于 记录 最 近 使 用 
过 的 地 址 转换 。 这 个 特殊 的 地 址 转换 cache 通常 被 称 为 快 表 ( TLB) | 地 址 的 里 身 信息 的 cache， 
(将 其 称 为 地 址 转换 cache 会 更 加 准确 )。TLB 就 相当 于 记录 目录 中 tn 
的 一 些 书 的 位 置 的 小 纸 片 : 我 们 在 纸 片 上 记录 一 些 书 的 位 置 ， 并 且 
将 小 纸 片 当 成 图 书馆 索 书号 的 cache， 这 样 就 不 用 一 直 在 整个 目录 中 搜索 了 。 

图 5-30 显示 TLB 中 的 每 个 标签 项 保存 虚拟 页 号 的 一 部 分 ， 每 个 数据 项 保存 一 个 物理 页 
号 。 因 为 每 次 引用 都 访问 TLB 而 不 是 页 表 ， 所 以 TLB 需要 包括 其 他 状态 位 ， 例 如 脏 位 和 引 
用 位 。 虽 然 图 5-30 只 显示 了 一 张 页 表 ， 但 TLB 也 适用 于 多 级 页 表 。TLB 从 最 后 一 级 页 表 中 
载 入 物理 地 址 和 保护 标签 即 可 。 


虚拟 页 号 Valid Dirty Ref 








图 5-30 ”TLB 作为 页 表 的 cache， 用 于 存放 映射 到 物理 页 中 的 那些 项 。TLB 包含 页 表 中 的 虚 
拟 页 到 物理 页 映射 的 一 个 子 集 。TLB 映射 以 灰色 显示 。 因 为 TLB 是 cache， 它 必 
须 包 含 标签 字段 。 如 果 一 个 页 在 TLB 中 没有 匹配 的 项 ， 则 必须 检查 页 表 。 页 表 提 
供 页 的 物理 页 号 (可 用 于 创建 TLB 表 项 ) 或 指示 该 页 在 磁盘 上 ， 这 时 就 发 生 缺 页 
失效 。 由 于 页 表 包 含 每 个 虚拟 页 的 表 项 ， 因 此 不 需要 标签 字段 ; 换 名 话说， 与 TLB 
不 同 ， 页 表 不 是 cache 
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每 次 引用 时 ， 在 TLB 中 查找 虚拟 页 号 。 如 果 命 中 ， 则 使 用 物理 页 号 来 形成 地 址 ， 相 应 
的 引用 位 被 置 位 。 如 果 处 理 器 要 执行 写 操作 ， 那 么 脏 位 也 会 被 置 位 。 如 果 TLB 发 生 失 效 ， 
我 们 必须 确定 是 缺 页 失效 或 只 是 TLB 失效 。 如 果 该 页 在 内 存 中 ，TLB 失效 表明 缺少 该 地 址 
转换 。 在 这 种 情况 下 ， 处 理 器 可 以 将 (最 后 一 级 ) 页 表 中 的 地 址 转换 加 载 到 TLB 中 ， 并 重新 
访问 来 处 理 失 效 。 如 果 该 页 不 在 内 存 中 ， 那 么 TLB 失效 意味 着 真正 的 缺 页 失效 。 在 这 种 情 
况 下 ， 处 理 器 调用 操作 系统 的 例外 处 理 。 由 于 TLB 的 项 数 比 主 存 中 的 页 数 少 得 多 ，TLB 失 
效 比 缺 页 失效 更 频繁 。 

TLB 失效 可 以 通过 硬件 或 软件 处 理 。 实 际 上 ， 两 种 方法 之 间 几 乎 没有 性 能 差异 ， 因 为 它 
们 的 基本 操作 相同 。 

发 生 TLB 失效 并 从 页 表 中 检索 到 失效 的 地 址 转换 后 ， 需 要 选择 要 替换 的 TLB 表 项 。 由 
于 TLB 表 项 包含 引用 位 和 脏 位 ， 所 以 当 替 换 某 一 TLB 表 项 时 ， 需 要 将 这 些 位 复制 回 对 应 的 
页 表 项 。 这 些 位 是 TLB 表 项 中 唯一 可 修改 的 部 分 。 使 用 写 回 策略 一 一 在 失效 时 将 这 些 表 项 写 
回 而 不 是 任何 写 操作 都 写 回 一 一 是 非常 有 效 的， 因为 我 们 期 望 TLB 失效 率 很 低 。 一 些 系统 使 
用 其 他 技术 来 粗略 估计 引用 位 和 脏 位 ， 这 样 在 失效 时 无 须 写 人 TLB ， 只 需 载 人 新 的 表 项 。 

TLB 的 一 些 典型 值 可 能 是 

e TLB 大 小 : 16 一 512 个 表 项 

e 块 大 小 : 1 一 2 个 页 表 项 (通常 每 个 为 4 一 8 字 节 ) 

e 命中 时 间 : 0.5 一 1 个 时 钟 周期 

e 失效 代价 : 10 ~ 100 个 时 钟 周期 

e@ 失效 率 : 0.01% ~ 1% 

TLB 中 相 联 度 的 设置 非常 多 样 。 一 些 系统 使 用 小 的 全 相 联 TLB ， 因 为 全 相 联 映射 的 失 
效率 较 低 ; 同时 由 于 TLB 很 小 ， 全 相 联 映射 的 成 本 也 不 是 太 高 。 其 他 一 些 系 统 使 用 容量 大 
的 TLB， 通 常 其 相 联 度 较 小 。 在 全 相 联 映射 的 方式 下 ， 由 于 硬件 实现 LRU 方案 成 本 太 高 ， 
替换 表 项 的 选择 就 很 复杂 。 此 外 ， 由 于 TLB 失效 比 缺 页 失效 更 频繁 ， 因 此 需要 用 较 低 的 代 
价 来 处 理 ， 而 不 能 像 缺 页 失效 那样 选择 一 个 开销 大 的 软件 算法 。 所 以 很 多 系统 都 支持 随机 选 
择 替 换 表 项 。 在 5.8 节 将 详细 地 介绍 替换 策略 。 





5.7.6 Intrinsity FastMATH TLB 


为 了 在 真实 处 理 器 中 弄 清楚 这 些 想法 ， 我 们 来 仔细 研究 Intrinsity FastMATH TLB。 存 储 系 
统 采用 4KiB 页 面 和 32 位 地 址 空间 ， 因 此 ， 虚 拟 页 号 长 度 为 20 位 。 物 理 地 址 与 虚拟 地 址 的 宽 
度 相同 。TLB 包含 16 个 表 项 ， 它 是 全 相 联 的 并 且 由 指令 和 数据 共享 。 每 个 表 项 为 64 位 宽 ， 包 
含 一 个 20 位 的 标签 (该 TLB 表 项 的 虚拟 页 号 )、 对 应 的 物理 页 号 (也 是 20 位 )、 一 个 有 效 位 、 
一 个 脏 位 以 及 一 些 其 他 管理 操作 位 。 像 大 多 数 MIPS 系统 一 样 ， 它 用 软件 来 处 理 TLB 失效 。 

图 5-31 显示 了 TLB 和 一 个 cache， 图 5-32 显示 了 处 理 一 次 读 或 写 请 求 的 步骤 。 当 发 生 
TLB 失效 时 ， 硬 件 将 引用 的 页 号 保存 在 特殊 寄存 器 中 并 产生 例外 。 该 例外 调用 操作 系统 ， 由 
软件 处 理 失效 。 为 了 找到 失效 页 的 物理 地 址 ，TLB 失效 程序 将 使 用 虚拟 页 号 和 页 表 寄 存 器 来 
索引 页 表 (页 表 寄 存 器 指示 活跃 进程 页 表 的 起 始 地 址 )。 通 过 执行 更 新 TLB 的 一 组 特殊 系统 
指令 ， 操 作 系 统 将 页 表 中 的 物理 地 址 放 入 TLB。 假 设 代 码 和 页 表 项 分 别 位 于 指令 cache 和 数 
据 cache 中 ， 处 理 一 次 TLB 失效 大 约 需要 13 个 时 钟 周 期 。 如 果 页 表 项 中 的 物理 地 址 无 效 ， 
则 会 发 生 真正 的 缺 页 失效 。 硬 件 保 存 着 被 建议 替换 项 的 索引 ， 而 这 一 项 是 随机 选取 的 。 
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写 请 求 存在 额外 的 复杂 情况 : 必须 检查 TLB 中 的 写 访问 位 。 该 位 防止 程序 向 只 具有 读 
权限 的 页 执行 写 操 作 。 如 果 程 序 试图 写 信 ,并且 写 访 问 位 是 关闭 的 ， 则 会 产生 例外 。 写 访问 
位 是 保护 机 制 的 一 部 分 ,我 们 将 在 稍 后 讨论 。 
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图 5-31 Intrinsity FastMATH 中 的 TLB 和 cache 实现 从 虚拟 地 址 到 数据 项 的 转换 过 程 。 该 
图 显示 了 TLB 和 数据 cache 的 结构 ， 假 设 页 大 小 为 4KiB。 请 注意 ， 此 计算 机 的 地 
址 仅 为 32 位 。 本 图 主要 介绍 读 操作 ， 图 5-32 描述 了 如 何 处 理 写 操作 。 请 注意 ,与 
图 5-12 不 同 ,标签 和 数据 RAM 是 分 开 的 。 用 cache 索引 和 块 偏 移 来 寻 址 长 而 罕 
的 数据 RAM， 无 须 使 用 16:1 的 多 路 选择 器 也 能 选 出 块 中 所 需 的 字 。 当 cache 采用 
直接 映射 的 方式 时 ，TLB 是 全 相 联 的 。 实 现 全 相 联 的 TLB 要 求 将 虚拟 页 号 与 每 个 
TLB 标签 进行 比较 ， 因 为 需要 的 项 可 能 在 TLB 中 的 任何 位 置 。( 见 5.4.2 节 “ 详 细 
阐述” 中 的 内 容 可 寻 址 存储 器 。) 如 果 匹 配 表 项 的 有 效 位 有 效 ， 那 么 TLB 命中 ， 物 
理 页 号 与 页 偏 移 中 的 位 共同 形成 访问 cache 的 索引 
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虚拟 地 址 






TLB 失 效 例 外 


读 cache 块 时 
cache 失 效 停顿 


更 新 脏 位 ， 将 数据 
和 地 址 写 入 写 缓冲 区 
图 5-32 在 Intrinsity FastMATH 的 TLB 和 cache 中 处 理 读 或 者 写 穿 透 操 作 。 如 果 TLB 命 

中 ， 可 以 用 最 终 的 物理 地 址 来 访问 cache。 对 于 读 操作 ，cache 发 生命 中 则 提供 数 
据 ， 若 发 生 失 效 ， 则 在 从 内 存 中 取 数 据 时 引起 停顿 。 对 于 写 操作 ， 若 命中 ，cache 
中 某 数 据 项 的 一 部 分 内 容 将 被 重 写 ， 如 果 采 用 写 穿 透 策略 ， 还 要 将 数据 送 到 写 缓冲 

写 失效 和 读 失 效 类 似 ， 只 是 数据 块 从 内 存 中 读 出 后 会 被 修改 。 写 回 策略 需要 将 
cache 的 脏 位 置 位 ， 并 且 只 有 当 读 或 写 失效 时 ， 如 果 被 替换 的 块 是 脏 块 ， 才 将 整 块 
写 入 写 缓冲 。 注 意 ，TLB 命中 和 cache 命中 是 相互 独立 的 事件 ,但 是 cache 命中 只 
能 发 生 在 TLB 命中 之 后 ， 这 就 意味 着 数据 必须 在 内 存 中 。TLB 失效 和 cache 失效 
之 间 的 联系 将 在 接 下 来 的 例子 和 本 章 最 后 的 习题 中 进一步 研究 。 请 注意 ， 此 计算 机 
的 地 址 宽度 仅 为 32 位 


5.7.7 集成 虚拟 存储 、TLB 和 cache 


虚拟 存储 和 cache 系统 就 像 一 个 层次 结构 一 样 共同 工作 ， 除 非 数据 在 主 存 中 ， 和 否则 它 不 
可 能 在 cache 中 出 现 。 操 作 系 统 帮助 管理 该 层次 结构 ， 当 它 决 定 将 某 一 页 移 到 磁盘 上 去 时 ， 
就 在 cache 中 将 该 页 的 内 容 刷 新 。 同 时 ， 操 作 系 统 修改 页 表 和 TLB， 而 后 尝试 访问 该 页 上 的 
数据 都 将 发 生 缺 页 。 

在 最 好 的 情况 下 ， 虚 拟 地 址 由 TLB 进行 转换 ， 然 后 被 送 到 cache， 找 到 相应 的 数据 ， 取 
回 并 发 给 处 理 器 。 在 最 坏 的 情况 下 ， 访 问 在 存储 层次 结构 的 三 个 部 件 中 都 发 生 失 效 : TLB、 





页 表 和 cache。 下 面 的 例子 将 详细 介绍 这 些 交互 作用 。 


| 例题 | 存储 层次 结构 的 全 部 操作 —— 
在 像 图 5-31 那样 的 存储 层次 结构 中 ， 包 含 一 个 TLB 和 一 个 按照 图 示 组 织 的 cache。 一 

个 访 存 请 求 可 能 会 遇 到 三 种 不 同类 型 的 失效 : TLB 失效 、 缺 页 失效 和 cache 失效 。 考 虑 这 三 

种 失效 的 所 有 组 合 : 一 个 或 多 个 事件 发 生 (七 种 可 能 性 )。 对 于 每 种 可 能 性 ， 说 明 此 事件 是 

否 会 真 的 发 生 以 及 在 何 种 情况 下 发 生 。 

| 答案 | 图 5-33 显示 了 所 有 可 能 发 生 的 组 合 以 及 事实 上 它们 是 否 真 的 可 能 发 生 。 


可 能 发 现 吗 ? 如 果 可 能 ， 在 什么 情况 下 发 生 ? 
可 能 ， 但 是 如 果 TLB 命 中 则 不 会 检查 页 表 
TLB 失 效 ， 但 是 在 页 表 中 找到 了 这 一 项 ， 重 试 后 在 cache 中 没有 找到 数据 
TLB 失 效 ， 接 着 发 生 缺 页 失效 ， 重 试 后 ， 在 cache 中 没有 找到 数据 

失效 | 失效 | 命中 


图 5-33 TLB 、 虚 拟 存 储 系统 和 cache 中 事件 的 可 能 组 合 。 其 中 三 种 组 合 是 不 可 能 的 ， 一 种 
是 可 能 的 (TLB 命中 ， 页 表 命 中 ，cache 失效 ) 但 不 可 能 被 检测 到 
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[说 细 阐 述 图 5-33 假设 在 访问 cache 之 前 ， 所 有 内 存 地 址 都 转 
换 为 物理 地 址 。 在 这 种 组 织 中 ，cache 是 按 物理 地 址 索引 的 并 且 是 
按 物理 地 址 标记 的 ( cache 索引 和 标签 都 是 物理 地 址 ， 而 不 是 虚拟 地 
址 )。 在 这 样 的 系统 中 ， 假 设 cache 命中 ， 访 问 内 存 的 时 间 必 须 同 时 
包括 TLB 访问 时 间 和 cache 访问 时 间 ; 当然 ， 这 些 访 问 可 以 轿 文 化 。 | 别名 ， 两 个 地 址 访问 同一 

或 者 ， 处 理 器 可 以 使 用 完全 或 部 分 虚拟 的 地 址 来 索引 cache。 | 个 目标 的 情况 ， 一 般 发 生 
这 被 称 为 虚拟 寻 址 cache， 它 使 用 虚拟 地 址 的 标签 ; 因 此， 这 种 | 宇和 人 
cache 是 按 虚 拟 地 址 索引 并 且 是 按 虚 拟 地 址 标记 的 。 在 这 样 的 cache b 
中 ， 地 址 转换 硬件 (TLB) 在 正常 cache 访问 期 间 未 被 使 用 ， 因 为 使 
用 尚未 转换 为 物理 地 址 的 虚拟 地 址 来 访问 cache。 这 将 TLB 从 关键 ”| 物理 寻 址 cache : 使 用 物 
路 径 上 移 开 ,减少 了 cache 的 延迟 。 然 而 ， 当 发 生 cache 失效 时 ， 处 | 理 地 址 寻 址 的 cache。 

理 器 需要 将 地 址 转换 为 物理 地 址 ， 来 从 主 存 获取 cache 块 。 

当 使 用 虚拟 地 址 访问 cache 并 且 在 进程 之 间 共 享 页 (可 能 使 用 不 同 的 虚拟 地 址 访问 页 ) 
时 ， 可 能 发 生 别 名 。 当 一 个 对 象 具 有 两 个 名 称 时 就 会 发 生 别名 一 一 在 这 种 情况 下 ， 同 一 页 有 
两 个 虚拟 地 址 。 这 种 多 义 性 产生 一 个 问题 ， 由 于 这 种 页 上 的 一 个 字 可 能 在 cache 中 的 两 个 位 
置 上 ， 每 个 位 置 对 应 于 不 同 的 虚拟 地 址 。 这 将 导致 一 个 程序 写 入 数据 ， 而 其 他 程序 没有 意识 
到 数据 已 经 改变 。 完 全 虚拟 寻 址 的 cache 会 导致 cache 和 TLB 的 设计 受 限 于 减少 别名 ， 或 导 
致 需要 操作 系统 (可 能 是 用 户 ) 采取 措施 来 确保 不 发 生 别 名 。 

这 两 种 设计 观点 常用 的 折 中 方法 是 采用 虚拟 索引 的 cache 一 一 有 时 仅 使 用 地 址 的 页 内 偏 
移 部 分 ， 这 实际 上 是 一 个 物理 地 址 ， 因 为 它 没有 被 转换 一 一 但 使 用 物理 标签 。 这 些 设计 是 按 
虚拟 地 址 索引 但 按 物理 地 址 标记 的 ， 它 试图 利用 虚拟 寻 址 cache 的 性 能 优势 ， 以 及 物理 寻 址 


虚拟 寻 址 cache : 一 种 使 
用 虚拟 地 址 而 不 是 物理 地 
址 访问 的 cache。 
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cache 的 简单 结构 。 例 如 ， 在 这 种 情况 下 没有 别名 问题 。 图 5-31 假设 页 大 小 为 4KiB， 但 实 
际 上 是 16KiB ， 因 此 Intrinsity FastMATH 就 使 用 了 这 种 方法 。 要 实现 这 种 方法 ， 必 须 在 最 小 
页 大 小 、cache 大 小 和 相 联 度 之 间 进 行 谨慎 权衡 。RISC-V 要 求 cache 的 行为 就 像 物 理 标 签 和 
物理 索引 的 一 样 ， 但 它 并 不 强制 要 求 这 样 实现 。 例 如 ， 虚 拟 索引 的 、 物 理 标 签 的 数据 cache 
可 以 使 用 额外 的 逻辑 来 确保 软件 无 法 区 分 差异 。 


5.7.8 虚拟 存储 中 的 保护 


虚拟 存储 最 重要 的 功能 就 是 允许 多 个 进程 共享 一 个 主 存 ， 同 时 为 这 些 进程 和 操作 系统 提 
供 内 存 保护 。 保 护 机 制 必须 确保 : 尽管 多 个 进程 共享 相同 的 主 存 ， 但 无 论 有 意 或 无 意 ， 一 个 
恶意 进程 不 能 写 另 一 个 用 户 进程 或 操作 系统 的 地 址 空间 。TLB 中 的 写 访问 位 可 以 防止 一 个 页 
被 写 人 。 如 果 没 有 这 一 级 保护 ， 计 算 机 病毒 将 更 加 泛滥 。 

| 硬 古 7 喜 古 接 加 | 为 了 使 操作 系统 能 够 在 虚拟 存储 系统 中 实现 | 管理 模式 ， 也 称 为 内 核 模 
保护 ， 硬 件 至 少 要 提供 以 下 三 个 基本 能 力 。 请 注意 ， 由 于 前 两 者 都 | 式 , 是 一 种 运行 操作 系统 
需要 虚拟 机 ， 因 此 其 需求 相同 (5.6 节 )。 和 

1. 支持 至 少 两 种 模式 ， 指 示 正 在 运行 的 进程 是 用 户 进程 还 是 操 


作 系 统 进程 ， 操 作 系 统 进程 也 可 称 为 管理 态 进程 、 内 核 进 程 或 主管 | 系统 调用 : 将 控制 权 从 用 

进程 户 模式 转换 到 管理 模式 的 
特殊 指令 ， 触 发 进程 中 的 
2. 提供 用 户 进程 可 读 但 不 能 写 的 一 部 分 处 理 器 状态 。 这 包括 用 | 一 个 例外 机 制 。 


户 / 管 理 程序 模式 位 ， 用 来 指示 处 理 器 处 于 用 户 态 还 是 管理 态 、 页 
表 指 针 和 TLB。 为 了 写 这 些 结构 ， 操 作 系 统 使 用 仅 在 管理 态 下 可 用 的 特殊 指令 进行 写 操作 。 

3. 提供 能 让 处 理 器 在 用 户 态 和 管理 态 之 间 相 互 转换 的 机 制 。 从 用 户 态 到 管理 态 的 转换 通 
常 由 系统 调用 的 例外 处 理 完 成 ， 它 由 特殊 指令 (RISC-V 指令 集中 的 ecall1) 将 控制 转移 到 
管理 态 的 代码 空间 的 指定 位 置 。 与 其 他 例外 处 理 一 样 ， 系 统 调用 处 的 程序 计数 器 中 的 值 被 保 
存在 管理 态 例外 程序 计数 器 (SEPC) 中 ， 并 且 处 理 器 被 置 于 管理 态 。 从 例外 返回 用 户 模式 ， 
使 用 管理 态 例 外 返回 sret (supervisor exception return) 指令 ， 将 重 置 为 用 户 模式 ， 并 跳 转 
到 SEPC 中 的 地 址 。 

通过 使 用 这 些 机 制 并 将 页 表 存 储 在 操作 系统 的 地 址 空间 中 ， 操 作 系 统 可 以 更 改 页 表 、 防 
止 用 户 进程 改写 页 表 、 确 保 用 户 进 程 只 能 访问 操作 系统 提供 给 它 的 存储 空间 。 

我 们 同样 要 防止 一 个 进程 读 另 一 个 进程 的 数据 。 例 如 ， 若 教师 将 成 绩 存 在 处 理 器 主 存 
中 ， 我 们 不 希望 学 生 程 序 读 到 它们 。 一 旦 开始 共享 主 存 ， 就 必须 赋予 进程 保护 数据 的 能 力 ， 
防止 被 另 一 个 进程 读 写 ; 否则 ， 共 享 主 存 将 是 喜忧参半 ! 

请 记 住 ， 每 个 进程 都 有 自己 的 虚拟 地 址 空间 。 因 此 ， 如 果 操 作 系统 将 页 表 组 织 好 ， 使 得 
独立 的 虚拟 页 映射 到 不 相交 的 物理 页 ， 那 么 一 个 进程 将 无 法 访问 另 一 个 进程 的 数据 。 当 然 ， 
这 也 要 求 用 户 进 程 不 能 更 改 页 表 上 映射。 如 果 操 作 系统 能 阻止 用 户 进程 修改 自己 的 页 表 ， 那 么 
安全 性 就 有 了 保证 。 但 是 ， 这 样 一 来 ， 操 作 系 统 必 须 能 够 修改 页 表 。 将 页 表 放 在 操作 系统 的 
保护 地 址 空间 就 能 满足 所 有 要 求 。 

当 进程 想 要 以 受 限 的 方式 共享 信息 时 ， 操 作 系 统 必须 协助 它们 。 这 是 因为 访问 另 一 个 进 
程 的 信息 需要 更 改 访问 进程 的 页 表 。 写 访问 位 可 用 来 将 共享 限制 为 只 读 ， 并 且 与 页 表 的 其 余 
部 分 一 样 ， 该 位 只 能 由 操作 系统 更 改 。 为 了 人 允许 另 一 个 进程 (例如 P1 ) 读 进 程 P2 的 一 页 ， 
P2 就 要 请 求 操作 系统 在 P1 的 地 址 空间 中 为 一 个 虚拟 页 创建 页 表 表 项 ， 指 向 P2 想 要 共享 的 








物理 页 。 如 果 P2 要 求 ， 操 作 系统 可 以 使 用 写 保护 位 来 防止 P1 对 数据 进行 改写 。 确 定 页 访问 
权限 的 任何 位 都 必须 包含 在 页 表 和 TLB 中 ,因为 只 有 在 TLB 失效 时 才 访 问 页 表 。 

| 磁 炙 尊王 | 当 操作 系统 决定 从 运行 进程 P1 切换 为 运行 进程 P2 | 上 下 文 切 换 ， 为 允许 另 

( 称 为 上 下 文 切换 或 进程 切换 ) 时 ， 它 必须 确保 P2 不 能 访问 Pl 的 页 | 个 不 同 的 进程 使 用 处 理 
表 ， 和 否则 不 利于 数据 保护 。 如 果 没 有 TLB， 只 需 将 页 表 寄 存 器 改 为 “| 器 ,改变 处 理 器 内 部 的 状 
指向 P2 的 页 表 (而 不 是 P1 ) 即 可 ; 如 果 有 TLB， 必 须 清除 属于 P1 0 
的 TLB 表 项 ， 目 的 是 保护 Pl 的 数据 ， 并 迫使 TLB 载 入 P2 的 表 项 。 
如 果 进 程 切换 的 频率 很 高 ， 这 一 举措 的 效率 就 很 低 。 例 如 ， 在 操作 系统 切换 回 Pl 之 前 ，P2 
可 能 只 装 入 了 少量 的 TLB 表 项 。 不 幸 的 是 ，P1 随后 发 现 它 的 所 有 TLB 表 项 都 不 见 了 ， 因 此 
不 得 不 通过 TLB 失效 来 重新 加 载 它们 。 出 现 这 个 问题 是 因为 Pl 和 P2 使 用 相同 的 虚拟 地 址 
时 ， 我 们 必须 清除 TLB 以 防止 地 址 混淆 。 

另 一 种 常用 的 方法 是 通过 添加 进程 标识 符 或 任务 标识 符 来 扩展 虚拟 地 址 空间 。 为 此 ， 
Intrinsity FastMATH 有 8 位 地 址 空间 ID (ASID) 字段 。 这 个 字段 标识 当前 正在 运行 的 进程 ; 
在 切换 进程 时 ， 它 保存 在 由 操作 系统 载 入 的 寄存 器 中 。RISC-V 也 提供 ASID 以 减少 上 下 文 
切换 时 的 TLB 刷新 。 进 程 标识 符 与 TLB 的 标签 部 分 相连 接 ， 因 此 当 页 号 和 进程 标识 符 同时 
匹配 时 ，TLB 才 发 生命 中 。 除 极 少数 情况 外 ， 这 种 组 合 消 除了 清除 TLB 的 需要 。 

同样 的 问题 可 能 在 cache 中 发 生 ， A oy, cache 包含 正在 运行 的 进程 的 数 
据 。 对 于 物理 寻 址 和 虚拟 寻 址 的 cache， 这 些 问题 以 不 同方 式 出 现 ， 并 且 通 过 不 同 的 解决 方 
案 ( 如 进程 标识 符 ) 来 确保 进程 获取 自己 的 数据 。 


5.7.9 ”人 处理 TLB 失效 和 缺 页 失效 


当 发 生 TLB 命中 时 ， 使 用 TLB 将 虚拟 地 址 转换 为 物理 地 址 很 简单 ， 但 正如 我 们 之 前 所 
见 ， 处 理 TLB 失效 和 缺 页 失效 却 很 复杂 。 当 TLB 中 没有 表 项 能 与 虚拟 地 址 匹配 时 ， 将 发 生 
TLB 失效 。 回 想 一 下 ，TLB 失效 表明 两 种 可 能 之 一 : 

1. 页 在 内 存 中 ， 只 需 创 建 缺少 的 TLB 表 项 。 

2. 页 不 在 内 存 中 ， 需 要 将 控制 转移 给 操作 系统 来 处 理 缺 页 失效 。 

处 理 TLB 失效 或 缺 页 失效 需要 使 用 例外 机 制 来 中 断 活跃 进程 ， 将 控制 转移 到 操作 系统 ， 
然后 再 恢复 执行 被 中 断 的 进程 。 缺 页 将 在 主 存 访 问 时 钟 周期 的 某 一 时 刻 被 发 现 。 为 了 在 缺 页 
失效 处 理 结束 后 重启 指令 ， 必 须 保 存 导 致 缺 页 失效 的 指令 的 程序 计数 器 。 管 理 态 例外 程序 计 
数 器 (SEPC) 用 于 保存 该 值 。 

此 外 ，TLB 失效 或 缺 页 失效 例外 必须 在 访 存 发 生 的 同一 个 时 钟 周 期 的 未 尾 被 判定 ， 这 样 
下 一 个 时 钟 周 期 将 开始 进行 例外 处 理 而 不 是 继续 正常 的 指令 执行 。 如 果 在 此 时 钟 周期 内 未 识 
别 出 缺 页 失效 ， 一 条 load 指令 可 能 会 改写 寄存 器 ， 而 当 我 们 尝试 重新 启动 指令 时 ， 这 可 能 是 
灾难 性 的 错误 。 例 如 ， 考 虑 指令 1b x10 ,0 (x10) : 计算 机 必须 防止 写 流水 线 阶段 的 发 生 ; 
否则 ， 就 无 法 正确 重启 指令 ， 因 为 x10 的 内 容 会 被 破坏 。store 指令 也 有 类 似 的 复杂 情况 。 
当 发 生 缺 页 失效 时 ， 我 们 必须 阻止 写 内 存 的 操作 的 完成 ， 这 通常 是 通过 令 到 内 存 的 写 控制 线 
为 无 效 来 完成 的 。 

| 硬 御 /软件 接 加 ”从 操作 系统 开始 执行 例外 处 理 程序 ， 到 操作 系统 保存 了 进程 的 所 有 状 
态 这 段 时 间 内 ， 操 作 系统 特别 脆弱 。 例 如 ， 如 果 在 操作 系统 处 理 第 一 个 例外 时 发 生 了 另 一 个 
例外 ， 控 制 单元 将 改写 例外 链接 寄存 器 ， 从 而 无 法 返回 到 导致 缺 页 失效 的 指令 ! 我 们 可 以 通 
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过 提供 禁止 例外 和 使 能 例外 来 避免 这 种 错误 的 发 生 。 首 次 发 生 例 外 | 使 能 例外 : 也 称 为 中 断 使 
时 ， 处 理 器 会 设置 一 个 管理 态 模式 位 ， 来 禁止 其 他 例外 发 生 ， 这 可 | 能 ， 用 于 控制 处 理 器 是 否 
以 与 处 理 器 设置 管理 态 模式 位 同时 进行 。 随 后 操作 系统 将 保存 足够 ae 
多 的 状态 ， 即 记录 例外 原因 的 SEPC 和 管理 态 例 外 原因 (SCAUSE) | 所 需 信息 之 前 ， 必 须 阻 上 
寄存 器 ， 以 便 在 发 生 另 一 个 例外 时 允许 恢复 ， 这 正如 我 们 在 第 4 章 | 例外 的 发 生 。 
中 看 到 的 那样 。RISC-V 中 的 SEPC 和 SCAUSE 是 两 个 特殊 的 控制 
寄存 器 ， 可 以 帮助 处 理 例 外 、TLB 失效 和 缺 页 失效 。 然 后 ， 操 作 系 统 可 以 重新 允许 例外 发 
生 。 这 些 步骤 确保 例外 不 会 导致 处 理 器 丢失 任何 状态 ， 因 此 也 不 会 导致 无 法 重启 被 中 断 指令 
的 执行 。 

一 旦 操作 系统 知道 引起 缺 页 失效 的 虚拟 地 址 ， 它 必须 完成 以 下 三 个 步骤 : 

1. 使 用 虚拟 地 址 找到 对 应 的 页 表 表 项 ， 并 在 辅助 存储 中 找到 引用 页 的 位 置 。 

2. 选择 要 替换 的 物理 页 ; 如 果 所 选 页 是 脏 的 ， 则 必须 先 将 其 写 人 辅助 内 存 ， 然 后 才能 将 
新 的 虚拟 页 写 到 此 物理 页 中 。 

3. 启动 读 操作 ， 将 被 访问 的 页 从 磁盘 上 取 回 到 所 选择 的 物理 页 的 位 置 上 。 

当然 ， 最 后 一 步 将 花费 数 百 万 个 处 理 器 时 钟 周期 (如 果 被 替换 的 页 是 脏 的 ， 那 么 第 二 步 
也 是 如 此 ); 因此 ， 操作 系统 通常 会 选择 另 一 个 进程 在 处 理 器 中 执行 直到 磁盘 访问 结束 。 由 于 
操作 系统 已 经 保存 了 当前 进程 的 状态 ， 所 以 它 可 以 方便 地 将 处 理 器 的 控制 权 交 给 另 一 个 进程 。 

当 从 辅助 存储 器 读 页 完成 后 ， 操 作 系统 可 以 恢复 最 初 导 致 缺 页 失效 的 进程 的 状态 并 执行 
从 例外 返回 的 指令 。 该 指令 将 处 理 器 从 内 核 态 重 置 为 用 户 态 ， 同 时 也 恢复 程序 计数 器 的 值 。 
然后 ， 用 户 进程 重新 执行 引发 缺 页 失效 的 指令 ， 成 功 访问 所 请 求 的 页 面 ， 并 继续 执行 。 

数据 访问 引起 的 缺 页 失效 例外 很 难处 理 ， 是 由 于 以 下 三 个 特征 : 

1. 它们 发 生 在 指令 的 中 间 ， 与 指令 缺 页 失效 不 同 。 

2. 在 例外 处 理 结束 之 前 无 法 完成 指令 。 

3. 例外 处 理 结束 后 ， 指 令 必 须 重新 启动 ， 就 像 什 么 都 没 发 生 过 一 样 。 

使 指令 可 重新 启动 ， 这 样 例外 被 处 理 之 后 ， 指 令 也 能 继续 执行 ， | 二 重启 指令 ， 一 种 在 例外 
这 在 类 似 RISC-V 的 体系 结构 中 相对 容易 实现 。 因 为 每 条 指令 只 写 | 被 处 理 之 后 能 从 例外 中 恢 
一 个 数据 项 ， 并 且 这 个 写 操作 发 生 在 指令 周期 的 末尾， 所 以 我 们 可 | 复 而 不 会 影响 指令 的 执行 
以 简单 地 阻止 指令 完成 (不 执行 写 操作 ) 并 在 开始 处 重新 启动 指令 。 | 结果 的 指令 。 

局 弓 阐 滑 对 于 有 着 更 复杂 指令 的 处 理 器 ， 其 指令 可 能 访问 许 
多 存储 位 置 并 写 许 多 数据 项 ， 这 使 指令 可 重启 要 困难 得 多 。 处 理 一 条 指令 可 能 在 指令 中 间 产 
生 多 次 缺 页 失效 。 例 如 ，x86 处 理 器 有 访问 数 千 个 数据 字 的 块 移动 指令 。 在 这 样 的 处 理 器 中 ， 
指令 通常 不 能 从 开始 处 重新 启动 ， 像 RISC-V 那样 。 相 反 ， 指 令 必 须 被 中 断 ， 然 后 从 执行 中 
断 处 继续 执行 。 在 执行 的 中 间 恢 复 指令 通常 需要 保存 一 些 特殊 状态 、 处 理 例 外 ， 然 后 恢复 那 
些 特 殊 状 态 。 要 使 处 理 器 正常 地 执行 这 项 工作 ， 需 要 在 操作 系统 的 例外 处 理 代码 与 硬件 之 间 
进行 仔细 的 协调 。 

| 琵 鲍 曾 通 与 每 次 访 存 都 需要 一 次 间接 寻 址 不 同 ， 虚 拟 机 监视 器 ( 5.6 节 ) 支持 影子 页 表 ， 
用 于 进行 用 户 虚 拟 地 址 到 物理 地 址 的 硬件 转换 。 通 过 检测 对 用 户 页 表 的 所 有 修改 ， 虚 拟 机 可 以 
确保 硬件 正在 用 于 转换 的 影子 页 表 表 项 与 用 户 操作 系统 中 的 页 表 表 项 一 致 ， 不 同 的 是 在 用 户 页 
表 中 使 用 正确 的 物理 地 址 替代 了 实地 址 。 因 此 ， 虚 拟 机 必须 在 用 户 操作 系统 试图 更 改 页 表 或 访 
问 页 表 指针 时 产生 自 陷 。 这 通常 由 用 户 操作 系统 通过 对 用 户 页 表 进 行 写 保护 ， 以 及 对 页 表 指 针 
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的 任何 访问 产生 自 陷 来 实现 。 如 上 所 述 ， 如 果 是 特权 操作 访问 页 表 指 针 后 ， 会 发 生 后 面 一 种 
情况 。 

| 有 弱 细 阐 述 | 体系 结构 中 需要 虚拟 化 的 最 后 一 部 分 是 IO。 由 于 计算 机 中 1/O 设备 数量 和 
类 型 不 断 增加 ，LO 虚拟 化 是 迄今 为 止 系统 虚拟 化 中 最 困难 的 部 分 。 另 一 个 困难 是 在 多 个 虚 
拟 机 之 间 共 享 真实 设备 ， 还 有 一 个 困难 是 要 支持 大 量 的 设备 驱动 程序 ， 特 别 是 在 一 个 支持 不 
同 用户 操 作 系 统 的 虚拟 机 上 就 更 加 困难 。 它 为 每 种 虚拟 机 中 各 种 类 型 的 IO 设备 提供 一 
用 的 驱动 ， 并 且 将 其 留 给 VMM 以 管理 实际 的 IO。 

| 详细 阐述 除了 虚拟 化 指令 集 之 外 ， 另 一 个 挑战 是 虚拟 存储 的 虚拟 化 ， 这 是 因为 虚拟 机 
上 的 每 个 用 户 操作 系统 都 管理 自己 的 一 组 页 表 。 为 了 实现 这 一 目标 ，VMM 将 真实 内 存 和 物 
理 内 存 的 概念 (通常 被 同 义 地 处 理 ) 分 开 ， 并 使 真实 内 存 成 为 虚拟 内 存 和 物理 内 存 之 间 的 一 
个 独立 层次 。( 有 些 使 用 术语 虚拟 内 存 、 物 理 内 存 和 机 器 内 存 来 命名 相同 的 三 个 层次 。) 用 户 
操作 系统 通过 其 页 表 将 虚拟 内 存 映 射 到 真 灾 内 存 ，VMM 页 表 将 用 户 的 真实 内 存 映射 到 物理 
内 存 。 虚 拟 存储 体系 结构 通常 由 页 表 实 现 ， 如 IBM VM /370、x86 和 RISC-V。 


5.7.10 总 结 


虚拟 存储 是 在 主 存 和 辅助 存储 之 间 进 行 数据 缓存 管理 的 一 级 存储 层次 。 虚 拟 存储 允许 单 
个 程序 将 其 地 址 空间 扩展 到 超出 主 存 的 限制 。 更 重要 的 是 ， 虚 拟 存储 支持 以 受 保护 的 方式 在 
多 个 同时 活跃 的 进程 之 间 共 享 主 存 。 

由 于 缺 页 失效 的 成 本 很 高 ， 管 理 主 存 和 磁盘 之 间 的 存储 层次 结构 很 具有 挑战 性 。 通 常 采 
用 下 面 一 些 技术 来 降低 缺 页 失效 率 : 

。 增 大 页 的 容量 以 利用 空间 局 部 性 ， 并 减少 失效 率 。 

。 使 用 页 表 实现 的 虚拟 地 址 和 物理 地 址 之 间 的 映射 是 全 相 联 的 ， 这 样 虚拟 页 可 以 放置 在 

主 存 中 的 任何 位 置 。 

。 操作 系统 使 用 如 LRU 和 引用 位 等 技术 来 选择 要 替换 的 页 。 

写 人 辅助 存储 的 成 本 很 高 ， 因 此 虚拟 存储 使 用 写 回 方案 ， 并 且 跟 踪 记 录 页 是 否 被 改过 
(使 用 脏 位 ) 以 避免 向 磁盘 写 人 干净 的 页 。 

虚拟 存储 机 制 提 供 了 从 程序 使 用 的 虚拟 地 址 到 用 于 访 存 的 物理 地 址 之 间 的 转换 。 该 地 址 
转换 机 制 允 许 对 主 存 进行 受 保护 的 共享 ， 并 提供 了 一 些 额外 的 好 处 ， 例 如 简化 了 内 存 分 配 。 
为 了 保证 进程 间 受 到 保护 ， 要 求 只 有 操作 系统 才能 改变 地 址 转换 ， 这 是 通过 阻止 用 户 程 序 更 
改 页 表 来 实现 的 。 可 以 在 操作 系统 的 帮助 下 实现 进程 之 间 受 控 地 共享 页 ， 并 且 页 表 中 的 访问 
位 指示 用 户 程序 是 否 具 有 对 页 的 读 或 写 访问 权 。 

如 果 对 于 每 一 次 访问 ， 处 理 器 都 要 访问 内 存 中 的 页 表 来 进行 转换 ， 这 样 的 虚拟 存储 开销 
将 很 大 ，cache 也 将 失去 意义 ! 相反 ， 对 于 页 表 ，TLB 扮演 了 地 址 转换 cache 的 角色 ， 利 用 
TLB 中 的 转换 将 虚拟 地 址 转换 为 物理 地 址 。 

cache、 虚 拟 存储 和 TLB 都 建立 在 一 组 共同 的 原理 和 策略 基础 上 。 下 一 节 将 讨论 这 个 通 
用 框架 。 

| 王 解 程序 性 能 尽管 虚拟 存储 是 为 了 使 小 容量 的 存储 看 起 来 像 大 容量 的 存储 ， 但 是 畏 
助 存储 和 主 存 之 间 的 性 能 差异 意味 着 ， 如 果 程 序 经 常 访问 比 它 拥有 的 物理 存储 更 多 的 虚拟 
存储 ， 程 序 运 行 速度 会 非常 慢 。 这 样 的 程序 将 不 断 地 在 主 存 和 辅助 存储 之 间 交 换 页 面 ， 称 为 
“ 颠 复 ”。 如 果 发 生 颠 得 将 是 一 场 灾难 ， 但 这 种 情况 很 少 发 生 。 如 果 你 的 程序 发 生 其 得， 最 简 
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单 的 解决 方案 是 在 内 存 更 大 的 计算 机 上 运行 它 ， 或 为 计算 机 增加 内 存 。 更 复杂 的 选择 是 重新 
检查 算法 和 数据 结构 ， 以 查看 是 否 可 以 更 改 局 部 性 ， 从 而 减少 程序 同时 使 用 的 页 数 。 这 一 组 
页 被 非 正 式 地 称 为 工作 集 。 

一 个 更 常见 的 性 能 问题 是 TLB 失效 。 由 于 TLB 同时 只 能 处 理 32 ~ 64 个 页 表 表 项 ， 
程序 很 容易 有 和 较 高 的 TLB 失效 率 ， 因 为 处 理 器 可 以 直接 访问 不 到 64X4KiB = 0.25MiB 的 
空间 。 例 如 ， 对 于 基数 排序 ，TLB 失效 通常 是 一 个 挑战 。 为 了 缓解 这 个 问题 ， 现 在 大 多 数 
计算 机 体系 结构 都 支持 更 大 的 页 。 例 如 ， 除 了 最 小 4KiB 页 外 ，RISC-V 硬件 还 支持 2MiB 
和 1GiB 大 小 的 页 。 因 此 ， 如 果 程 序 使 用 大 页 ， 就 可 以 直接 访问 更 多 内 存 而 不 会 发 生 TLB 
失效 。 

让 操作 系统 允许 程序 选择 这 些 更 大 的 页 也 是 一 个 实际 的 难题 。 同 样 ， 减 少 TLB 失效 的 
更 复杂 的 解决 方案 是 重新 检查 算法 和 数据 结构 ， 以 减少 工作 集中 的 页 ; 另外 ， 考 虑 内 存 访问 
对 性 能 和 TLB 失效 率 的 重要 影响 ， 一 些 工 作 集 较 大 的 程序 已 经 针对 该 目标 进行 了 重新 设计 。 

| 详细 阐述 RISC-V 通过 图 5-29 的 多 级 页 表 支 持 更 大 的 页 。 除 了 指向 第 1 级 和 第 2 级 中 
的 下 一 级 页 表 之 外 ， 它 还 支持 超 页 转换 ， 即 将 虚拟 地 址 映射 到 1GiB 物理 地 址 (如果 块 转换 
在 第 1 级 ) 或 2MiB 物理 地 址 (如 果 块 转换 在 第 2 级 )。 


5.8 存储 层次 结构 的 一 般 框架 


到 目前 为 止 ， 我 们 已 经 看 到 不 同类 型 的 存储 层次 结构 有 很 多 共同 点 。 虽 然 存储 层次 结 
构 的 很 多 方面 都 有 量 的 区 别 ， 但 是 很 多 决定 层次 结构 功能 的 策略 和 特征 在 本 质 上 是 相似 的 。 
图 5-34 显示 了 存储 层次 结构 的 某 些 定量 特征 的 区 别 。 在 本 节 的 剩余 部 分 ， 我 们 将 讨论 关于 
存储 层次 结构 如 何 工作 的 一 些 选 项 ， 以 及 它们 如 何 决定 其 行为 。 我 们 通过 适用 于 存储 层次 结 
构 两 层 之 间 的 四 个 问题 来 研究 这 些 策 略 ， 为 了 简单 起 见 ， 我 们 将 主要 使 用 cache 中 的 术语 。 


一 乡 人 E 芝 上 


块 的 总 大 小 250 一 2000 | 2500 一 25 000 16 000 一 250 000 40 一 1024 
以 KiB 计 量 的 总 容量 16 一 64 125 一 2000 1000 000~1000000000| 0.25 一 16 
块 的 字 节 数 





9 字 16~64 64~128 4000~64 000 
失效 代价 的 周期 数 10~25 100~1000 | 10 000 000~100 000 000 | 10~1000 


et 0 2% 一 5% 0.1% 一 2% 0.000 01% 一 0.0001% | 0.01% 一 2% 


图 5-34 表征 计算 机 存储 层次 结构 主要 组 成 部 分 的 关键 定量 设计 参数 。 本 图 是 这 些 层次 
截至 2012 年 的 典型 值 。 值 的 范围 很 宽 ， 一 部 分 原因 是 很 多 随时 间 变 化 的 值 是 互 
相关 联 的 ; 例如 ， 随 着 cache 容量 变 大 以 克服 更 大 的 失效 代价 ， 块 大 小 也 随 之 增 
长 。 图 中 没有 显示 的 是 ， 服 务 器 的 微 处 理 器 现在 还 有 三 级 cache， 其 容量 可 以 是 
2 一 8MiB， 并且 包含 比 二 级 cache 更 多 的 块 。 三 级 cache 将 二 级 cache 的 失效 代价 
降低 到 30 一 40 个 时 钟 周期 








5.8.1 问题 一 : 块 可 以 被 放 在 何 处 


我 们 已 经 看 到 ， 在 较 高 存储 层次 结构 中 ， 块 的 放置 可 以 使 用 一 系列 方案 ， 从 直接 映射 到 
组 相 联 ， 再 到 全 相 联 。 如 上 所 述 ， 整 个 方案 范围 可 以 被 认为 是 组 相 联 方案 的 变 体 ， 其 中 组 的 
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数量 和 每 组 中 块 的 数量 不 相同 : 
每 组 中 块 的 数量 
| 直接 映射 | ”cache 中 的 块 数 “| 1 
cache 中 的 块 数 8 
组 相 联 | 一 一 租 联 度 ”| 由 联 度 ( 一 般 为 2~ 16 ) 
全 相 联 u | cache 中 的 块 数 











增加 相 联 度 的 好 处 是 通常 会 降低 失效 率 。 失 效率 的 改进 来 自 于 减少 竞争 同一 位 置 而 产生 
的 失效 。 我 们 稍 后 将 详细 讨论 。 首 先 ， 来 看 能 获得 多 少 性 能 改进 。 图 5-35 显示 了 不 同 cache 
容量 时 ， 相 联 度 从 直接 映射 到 八路 组 相 联 变化 时 的 失效 率 。 最 大 的 改进 出 现在 直接 映射 变化 
到 两 路 组 相 联 时 ， 失 效率 降低 了 20% 一 30%。 随 着 cache 容量 的 增加 ， 相 联 度 的 提高 对 性 能 
改进 作用 很 小 ; 这 是 因为 大 容量 cache 的 总 失效 率 较 低 ， 因 此 改善 失效 率 的 机 会 减少 ， 并 且 
由 相 联 度 引 起 的 失效 率 的 绝对 改进 明显 减少 。 如 前 所 述 ， 相 联 度 增加 的 潜在 缺点 是 增加 了 代 
价 和 访问 时 间 。 





图 5-35” 随 着 相 联 度 的 增加 ，8 种 容量 的 数据 cache 的 失效 率 都 会 改进 。 从 一 路 (直接 映射 ) 
到 两 路 组 相 联 变化 时 获 益 明显 ， 进 一 步 增 加 相 联 度 所 获得 的 好 处 就 小 一 些 了 ( 例 
如 ， 从 两 路 到 四 路 提高 了 1% 一 10%， 而 从 一 路 到 两 路 提高 了 20% 一 30%)。 从 四 
路 到 八路 组 相 联 的 改进 甚至 更 少 ， 它 们 反而 接近 全 相 联 cache 的 失效 率 。 小 容量 的 
cache 由 于 其 本 身 失 效率 较 高 ， 因 此 从 相 联 度 所 获得 的 益处 就 很 明显 。 图 5-16 解释 
了 这 些 数据 是 如 何 收 集 的 


5.8.2 ”问题 二 : 如 何 找 到 块 


我 们 如 何 找 到 某 个 块 取决 于 块 的 放置 方案 ， 因 为 这 决定 了 可 能 存放 位 置 的 数量 。 我 们 可 
以 把 这 些 方案 总 结 如 下 : 


相 联 度 需要 比较 的 次 数 

















| 直接 映射 索引 1 

| ”组 相 联 | 索引 组 ,查找 组 中 元 素 相 联 度 
查找 所 有 cache 表 项 | cache 容 量 

| i | ”独立 的 查找 表 “| 0 








在 存储 层次 结构 中 ， 直 接 映射 、 组 相 联 或 全 相 联 映射 的 选择 取决 于 失效 代价 与 相 联 度 实 
现代 价 之 间 的 权衡 ,包括 时 间 和 额外 硬件 开销 。 在 片上 包含 二 级 cache 允许 实现 更 高 的 相 联 
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度 ， 这 是 因为 命中 时 间 不 再 关键 ， 设 计 者 也 不 必 依靠 标准 SRAM 芯片 来 构建 模块 。 除 非 容 
量 很 小 ， 和 否则 cache 不 使 用 全 相 联 映射 方式 ， 其 中 比较 器 的 成 本 并 不 是 压倒 性 的 ， 而 绝对 失 
效率 的 改进 才 是 最 明显 的 。 

在 虚拟 存储 系统 中 ， 页 表 是 一 张 独立 的 映射 表 ， 它 用 来 索引 内 存 。 除 了 表 本 身 需 要 的 存 
储 空间 外 ， 使 用 索引 表 还 会 引起 额外 的 存储 访问 。 使 用 全 相 联 映射 和 额外 的 页 表 有 以 下 几 个 
原因 : 

e 全 相 联 有 其 优越 性 ， 因 为 失效 代价 非常 高 。 

e 全 相 联 允许 软件 使 用 复杂 的 替换 策略 以 降低 失效 率 。 

。 全 相 联 很 容易 索引 ， 不 需要 额外 的 硬件 ， 也 不 需要 进行 查找 。 
因此 ， 虚 拟 存储 系统 通常 使 用 全 相 联 。 

组 相 联 映射 通常 用 于 cache 和 TLB， 访问 时 包括 索引 和 组 内 查找 。 一 些 系统 使 用 直接 映 
射 cache， 这 是 因为 访问 时 间 短 并 且 实 现 简单 。 访 问 时 间 短 是 因为 查找 时 不 需要 进行 比较 。 
这 样 的 设计 选择 取决 于 很 多 实现 细节 ， 例如，cache 是 否 集成 在 片上 、 实 现 cache 的 技术 以 
及 cache 的 访问 时 间 对 处理 带 周 期 时 间 的 重要 性 。 


5.8.3 ”问题 三 : 当 cache 发 生 失 效 时 替换 哪 一 块 


当 相 联 的 cache 发 生 失 效 时 ， 我 们 必须 决定 要 替换 哪个 块 。 在 全 相 联 的 cache 中 ， 所 有 
的 块 都 是 替换 的 候选 者 。 如 果 cache 是 组 相 联 的 ， 则 必须 在 一 组 的 块 中 进行 选择 。 当 然 ， 直 
接 映射 cache 中 的 替换 很 容易 ， 因 为 只 有 一 个 候选 者 。 

在 组 相 联 或 全 相 联 的 cache 中 有 两 种 主要 的 替换 策略 ; 

。 随机 : 随机 选择 候选 块 ， 可 能 使 用 一 些 硬件 辅助 实现 。 

。 最 近 最 少 使 用 (LRU): 被 替换 的 块 是 最 久 没有 被 使 用 过 的 块 。 

实际 上 ， 在 相 联 度 不 低 (典型 的 是 两 路 到 四 路 ) 的 层次 结构 中 实现 LRU 的 代价 太 高 ， 这 
是 因为 追踪 记录 使 用 信息 的 代价 很 高 。 即 使 对 于 四 路 组 相 联 ，LRU 通常 也 是 近似 实现 的 ， 例 
如 ， 追踪 记 录 哪 一 对 块 是 最 近 最 少 使 用 的 〈 需 要 使 用 1 位 )， 然 后 追踪 记录 每 对 块 中 哪 一 块 是 
最 近 最 少 使 用 的 (每 对 需要 使 用 1 位 )。 

对 于 较 大 的 相 联 度 ，LRU 是 近似 的 或 使 用 随机 替换 策略 。 在 cache 中 ， 替 换算 法 由 硬 
件 实现 ， 这 意味 着 方案 应 该 易于 实现 。 随 机 替换 算法 用 硬件 很 容易 实现 ， 对 于 两 路 组 相 联 
cache， 随 机 替换 的 失效 率 比 LRU 替换 策略 的 失效 率 高 约 1.1 倍 。 随 着 cache 容量 变 大 ， 两 
种 替换 策略 的 失效 率 下 降 ， 并 且 绝对 差异 也 变 小 。 实 际 上 ， 随 机 替换 算法 的 性 能 有 时 可 能 比 
用 硬件 简单 实现 的 近似 LRU 更 好 。 

在 虚拟 存储 中 ，LRU 的 一 些 形式 都 是 近似 的 ， 因 为 当 失 效 代价 很 大 时 ， 失 效率 的 微小 
降低 都 很 重要 。 通 常 提供 参考 位 或 其 他 等 价 的 功能 使 操作 系统 更 容易 追踪 记录 一 组 最 近 使 用 
较 少 的 页 。 由 于 失效 代价 很 高 且 相 对 不 频繁 发 生 ， 主 要 由 软件 来 近似 这 项 信息 的 做 法 是 可 
行 的 。 


5.8.4 问题 四 : 写 操作 如 何 处 理 


任何 存储 层次 结构 的 一 个 关键 特性 是 如 何 处 理 写 操 作 。 我 们 已 经 看 到 两 个 基本 选项 : 
e@ 写 穿 透 : 信息 将 写 入 cache 中 的 块 和 存储 层次 结构 中 较 低 层 的 块 (对 cache 而 言 是 主 
存 )。5.3 节 中 的 cache 使 用 这 种 方案 。 
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® 写 返 回 : 信息 仅 写 入 cache 中 的 块 。 修 改 后 的 块 只 有 在 它 被 替换 时 才 会 写 人 层次 结构 
中 的 较 低层 。 由 于 5.7 节 中 讨论 的 原因 ， 虚 拟 存储 系统 总 是 采用 写 返 回 策略 。 


写 返回 和 写 穿 透 都 有 其 各 自 的 优点 。 写 返回 的 主要 优点 如 下 : 
e 处 理 右 可 以 按 cache 而 不 是 内 存 能 接收 的 速率 写 单个 的 字 。 


。 块 内 的 多 次 写 操作 只 需 对 存储 层次 结构 中 的 较 低层 进行 一 次 写 操作 。 
。 当 写 回 块 时 ， 由 于 写 一 整个 块 ， 系 统 可 以 有 效 地 利用 高 带宽 传输 。 


写 穿 透 具有 以 下 优点 : 


。 失效 比较 简单 ， 代 价 也 比较 小 ， 这 是 因为 不 需要 将 块 写 回 到 存储 层次 结构 中 的 较 


低层 。 


e 写 穿 透 比 写 返 回 更 容易 实现 ， 尽 管 实际 上 写 穿 透 cache 仍然 需要 写 缓冲 区 。 

在 虚拟 存储 系统 中 ， 只 有 写 返 回 策略 才 是 实用 的 ， 这 是 因为 写 到 存储 层次 结构 较 低层 的 
延迟 很 大 。 尽 管 允许 存储 器 的 物理 和 逻辑 宽度 更 宽 ， 并 对 DRAM 采用 突 发 模式 ， 处 理 器 产 
生 写 操作 的 速率 通常 还 是 超过 存储 系统 可 以 处 理 它们 的 速率 。 因 此 ， 现 在 最 低 一 级 的 cache 


通常 采用 写 回 策略 。 


卫 起 cache、TLB 和 虚拟 存储 最 初 可 能 看 起 来 非常 不 同 ， 但 它们 都 基于 相同 的 两 个 局 


部 性 原理 ， 并 且 可 以 通过 它们 对 四 个 问题 的 各 自 回答 来 理解 : 
问题 1: 块 可 以 被 放 在 哪里 ? 


答案 : 一 个 位 置 (直接 映射 )、 一 些 位 置 (组 相 联 ) 或 任何 位 置 (全 相 联 )。 


问题 2， 如 何 找到 块 ? 


答案 : 有 四 种 方法 : 索引 (在 直接 映射 的 cache 中 )， 有 限 的 检索 (在 组 相 联 cache 中 )， 
全 部 检索 (在 全 相 联 的 cache 中 )， 单 独 的 查找 表 (在 页 表 中 )。 


问题 3: 失效 时 替换 哪 一 块 ? 
答案 : 通常 是 最 近 最 少 使 用 的 块 ， 或 随机 选取 的 一 块 。 
问题 4: 如 何 处 理 写 操作 ? 


答案 : 层次 结构 中 的 每 一 层 都 可 以 使 用 写 穿 透 策 略 或 写 返回 策略 。 


5.8.5 3C: 一 种 理解 存储 层次 结构 的 直观 模型 


在 本 节 中 ， 我 们 将 介绍 一 种 模型 ， 该 模型 可 以 很 好 地 洞察 存储 
层次 结构 中 引起 失效 的 原因 ， 以 及 存储 层次 结构 中 的 变化 对 失效 的 
影响 。 我 们 将 用 cache 来 解释 这 些 想法 ， 尽 管 这 些 想法 对 其 他 层次 也 
都 直接 适用 。 在 此 模型 中 ， 所 有 失效 都 被 分 为 以 下 三 类 ( 3C 模型 ): 
强制 失效 : 对 没有 在 cache 中 出 现 过 的 块 进行 第 一 次 访问 时 
产生 的 失效 ， 也 称 为 冷 启 动 失效 。 
容量 失效 : cache 无 法 包含 程序 执行 期 间 所 需 的 所 有 块 而 引 
起 的 失效 。 当 某 些 块 被 替换 出 去 ,随后 再 被 调 人 时 ， 将 发 生 
容量 失效 。 

e 冲突 失效 : 在 组 相 联 或 者 直接 映射 cache 中 ,很 多 块 为 了 
竞争 同一 个 组 导致 的 失效 。 冲 突 失效 是 直接 映射 或 组 相 联 
cache 中 的 失效 ， 而 在 相同 大 小 的 全 相 联 cache 中 不 存在 。 这 
种 cache 失效 也 称 为 碰撞 失效 (collision miss ) 。 


3C 模型 : 将 所 有 的 cache 
失效 都 归 为 三 种 类 型 的 
cache 模型 ， 三 类 分 别 为 
强制 失效 、 容 量 失效 和 冲 
突 失效 。 因 其 三 类 名 称 的 
英文 单词 首 字 母 均 为 C 而 
得 名 。 


强制 失效 : 也 称 为 冷 启动 
失效 。 对 没有 在 cache 中 
出 现 过 的 块 进 行 第 一 次 访 
问 时 产生 的 失效 。 


容量 失效 : 由 于 cache 在 
全 相 联 时 都 不 可 能 容纳 所 
有 请 求 的 块 而 导致 的 失效 。 
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图 5-36 显示 了 失效 率 如 何 按照 引起 的 原因 被 分 为 三 种 。 改 变 | 冲突 失效 : 也 称 为 碰撞 失 
cache 设计 中 的 某 一 方面 可 以 直接 影响 这 些 失 效 的 原因 。 由 于 冲突 | 效 。 在 组 相 联 或 者 直接 映 


失效 来 自 对 同一 cache 块 的 争 用 ， 因 此 提高 相 联 度 可 减少 冲突 失效 。 | 党 吕 莹 加 


但 是 ， 提 高 相 联 度 可 能 会 延长 访问 时 间 ， 从 而 降低 整体 性 能 。 ER 
3 大 小 的 全 相 联 cache 中 是 
Eee 不 存在 的 。 
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9 4 8 信 32 64 128 256 S12 1024 
cache 容 量 ( KiB ) 

图 5-36 根据 失效 原因 ， 失 效率 可 被 分 为 三 种 。 此 图 显示 不 同 容量 cache 的 总 失效 率 及 其 组 
成 部 分 。 数 据 由 SPEC CPU2000 整数 和 浮 点 基准 测试 得 到 ， 与 图 5-35 中 的 数据 源 
相同 。 强 制 失 效 部 分 只 占 0.006%， 在 图 中 看 不 出 来 。 下 一 部 分 是 容量 失效 ， 它 取 
决 于 cache 容量 。 冲 突 部 分 取决 于 相 联 度 和 cache 容量 ， 图 中 显示 了 相 联 度 从 一 路 
到 八路 的 冲突 失效 率 。 在 每 种 情况 下 ， 当 相 联 度 从 下 一 个 较 高 度 变 为 标记 的 相 联 度 
时 ， 标 记 部 分 对 应 于 失效 率 的 增加 。 例 如 ， 标 记 为 两 路 的 部 分 表示 当 cache 从 四 路 
变 为 两 路 时 失效 的 增加 。 因 此 ， 相 同 大 小 的 直接 映射 cache 与 全 相 联 cache 所 引起 
的 失效 率 的 差异 由 标记 为 四 路 、 两 路 和 一 路 的 部 分 的 总 和 给 出 。 八 路 和 四 路 之 间 的 
差异 很 小 ， 很 难 在 图 上 看 到 


简单 地 增 大 cache 容量 可 以 减少 容量 失效 ， 实 际 上 ， 多 年 来 二 级 cache 容量 一 直 在 稳步 
增长 。 当 然 ， 在 增 大 cache 的 同时 ， 我 们 也 必须 注意 访问 时 间 的 增长 ， 这 可 能 导致 整体 性 能 
降低 。 因 此 ， 尽 管 一 级 cache 也 在 增 大 ， 但 是 非常 缓慢 。 

由 于 强制 失效 是 对 块 的 第 一 次 访问 时 产生 的 ， 因 此 ， 对 cache 系统 来 说 ,减少 强制 失效 
次 数 的 主要 方法 是 增加 块 大 小 。 由 于 程序 将 由 较 少 的 cache 块 组 成 ， 因 此 这 将 减少 对 程序 每 
一 块 都 要 访问 一 次 时 的 总 访问 次 数 。 如 上 所 述 ， 块 容量 增加 太 多 可 能 对 性 能 产生 负面 影响 ， 
因为 失效 代价 会 增加 。 

| 恒 虞 设计 存储 层次 结构 的 挑战 在 于 ,任何 一 个 改进 失效 率 的 设计 可 能 同时 对 整体 性 能 
产生 负面 影响 ， 如 图 5-37 所 示 。 这 种 正面 和 负面 效果 的 结合 使 得 存储 层次 结构 的 设计 变 得 
有 趣 。 
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对 失效 率 的 影响 可 能 对 性 能 产生 的 负面 影响 
降低 失效 率 可 能 延长 访问 时 间 


增加 相 联 度 由 于 减少 了 冲突 失效 ， 降 低 了 失效 率 | 可 能 延长 访问 时 间 





由 于 空间 局 部 性 ， 对 很 宽 范围 内 变化 | ”增加 失效 损失 ， 块 太 大 还 会 
的 块 大 小 ， 降 低 了 失效 率 增 大 失效 率 


图 5-37 存储 层次 结构 设计 的 挑战 
将 失效 分 为 3C 是 个 有 用 的 定性 模型 。 在 实际 cache 设计 中 ,很 多 设计 选择 相互 影响 ， 
改变 一 个 cache 特性 通常 会 影响 另 一 些 失效 率 的 组 成 部 分 。 尽 管 存 在 这 些 缺 点 ， 但 该 模型 仍 
是 深入 了 解 cache 设计 性 能 的 有 效 方法 。 


增加 块 容量 











5.9 使 用 有 限 状 态 自动 机 控制 简单 的 cache 


现在 可 以 为 cache 建立 控制 ， 正 如 我 们 在 第 4 章 中 为 单 时 钟 周 期 和 流水 线 的 数据 通路 添 
加 控制 那样 。 本 节 先 对 简单 cache 进行 定义 ,之 后 描述 有 限 状 态 自动 机 ， 并 以 使 用 有 限 状态 
自动 机 控制 这 个 简单 cache 作为 结束 。5.12 节 是 对 本 节 的 深度 扩展 ,使 用 一 种 新 的 人 硬件 描述 
语言 展示 cache 和 控制 器 。 


5.9.1 一 个 简单 的 cache 


现在 我 们 将 要 为 一 个 简单 的 cache 设计 控制 器 。 下 面 是 这 个 cache 的 主要 特征 : 
e 直接 映射 cache 

e 使 用 写 分 配 写 回 

。 块 大 小 为 四 字 (16 字 节 或 128 位 ) 

e cache 大 小 为 16KiB， 因 此 该 缓存 内 包含 1024 个 块 

e 32 位 地 址 

e 该 cache 的 每 个 块 内 都 包含 有 效 位 和 脏 位 

根据 5.3 节 中 的 内 容 ， 我 们 现在 可 以 计算 该 cache 地 址 的 字段 : 
e cache 块 索引 为 10 位 

e 块 内 偏 移 为 4 位 

e 标签 大 小 为 32- (10+4)， 也 就 是 18 位 

处 理 需 与 cache 之 间 的 控制 信号 为 : 

e 1 位 读 或 写 信 和 号 

e 1 位 有 效 信 和 号， 表示 该 操作 是 否 为 cache 操作 

e 32 位 地 址 

e 32 位 数据 ， 从 处 理 右 传输 至 cache 

e 32 位 数据 ， 从 cache 传输 至 处 理 需 
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e 1 位 就 绪 信 号 ， 表 示 cache 操作 已 经 完成 

存储 器 与 cache 之 间 的 接口 与 处 理 器 和 cache 之 间 的 字段 基本 一 致 ， 只 不 过 数据 位 现在 
换 成 了 128 位 宽 。 额 外 的 存储 器 宽度 在 当今 的 微 处 理 器 中 很 常见 ， 它 处 理 32 位 或 64 位 字 
的 处 理 器 ， 而 DRAM 控制 句 通常 为 128 位 。 将 cache 块 与 DRAM 的 宽度 相 匹 配 可 以 简化 设 
计 。 因 此 将 信和 号 设计 如 下 : 

e 1 位 读 或 写 信号 

e 1 位 有 效 信号 ， 表 示 该 操作 是 否 为 存储 器 操作 
32 位 地 址 
128 位 数据 ， 从 cache 传输 至 存储 器 
128 位 数据 ， 从 存储 器 传输 至 cache 

e 1 位 就 绪 信 和 号， 表示 存 储 器 操作 已 经 完成 

需要 注意 的 是 ,存储器 接口 所 需 的 时 钟 周 期 数 不 是 固定 的 。 我 们 假设 当 存储 器 读 写 操作 
完成 时 ， 存储器 控制 絮 可 以 通过 就 绪 信 号 将 该 事件 通知 给 cache。 

在 描述 cache 控制 器 之 前 ,我 们 需要 回顾 一 下 有 限 状 态 自动 机 的 相关 知识 ， 有 限 状 态 自 
动机 可 以 使 得 控制 一 个 需要 多 时 钟 周 期 的 操作 成 为 可 能 。 


5.9.2 有限 状态 自动 机 


为 了 设计 单 时 钟 周 期 数据 通路 的 控制 单元 ， 我 们 使 用 真 值 表 来 根据 指令 类 别 设置 控制 信 
号 。cache 的 控制 将 会 更 为 复杂 ， 因 为 对 cache 的 操作 可 能 包含 了 一 系列 步骤 。cache 控制 必 
须 指定 每 个 步骤 中 需要 设置 的 信号 以 及 下 一 个 将 要 执行 的 步骤 。 

最 常见 的 多 步骤 控制 技术 基于 有 限 状态 自动 机 ， 它 通常 以 图 的 ”| 有 限 状 态 自动 机 ， 一 个 包 
形式 表示 。 有 限 状态 自动 机 由 一 系列 状态 和 状态 之 间 改 变 的 方向 组 “| 含 了 一 组 输入 /给 出 、 状 
成 。 该 方向 由 状态 转换 函数 定义 ， 它 是 当前 状态 和 指向 新 状态 的 输 | 态 转换 画 数 (将 当前 状态 

、 a A ge 5 和 输入 映射 为 新 状态 ) 和 
入 之 间 的 映射 。 当 使 用 有 限 状态 自动 机 进行 控制 时 ， 该 自动 机 的 状 | 一 个 痊 出 函数 (将 当前 次 
态 也 指定 了 一 系列 输出 ， 该 输出 是 当 机 器 处 于 该 状态 下 的 断言 。 有 | 态 和 输入 映射 为 断言 输出 ) 
限 状态 自动 机 实现 时 通常 假定 所 有 未 明确 断言 过 的 输出 都 是 无 效 的 。 | 的 顺序 远 辑 函数 。 

类 似 地 ， 数 据 通路 的 正确 操作 也 取决 于 这 样 一 个 事实 : 没有 明确 断 
言 过 的 信号 都 是 无 效 的 ， 而 不 是 针对 该 信号 做 无 意义 的 操作 。 0 

多 选 器 的 控制 与 上 述 行为 略 有 不 同 ， 因 为 它 只 选择 众多 输入 中 | 襄 冯 入 ， 丰 以 得 出 胡 限 次 
的 一 个 ， 而 不 考虑 该 输入 是 0 还 是 1。 因 此 ， 在 有 限 状态 自动 机 中 ， | 坟 自 动机 的 下 一 状态 。 
我 们 总 是 指定 所 有 需要 关注 的 多 选 器 控制 的 设置 。 当 使 用 逻辑 器 件 
实现 有 限 状态 自动 机 时 ， 可 以 默认 将 控制 设置 为 0， 也 因此 不 需要 任何 逻辑 门 。 在 附录 A 中 
提供 了 一 个 简单 的 有 限 状 态 自 动机 示例 ， 如 果 你 不 熟悉 有 限 状 态 自动 机 的 概念 ， 那 么 在 继续 
后 面 的 学 习 之 前 ， 建 议 你 先 查看 附录 A。 

有 限 状态 自动 机 可 以 用 保存 当前 状态 的 临时 寄存 器 和 一 组 组 合 逻辑 实现 ， 该 组 合 逻 辑 决 
定 被 断言 的 数据 通路 信号 以 及 下 一 状态 。 图 5-38 是 该 实现 的 图 示 。 附 录 C 详细 描述 了 有 限 
状态 自动 机 是 如 何 使 用 该 结构 实现 的 。 在 附录 A 的 A.3 节 中 ， 有 限 状 态 自动 机 的 组 合 控 制 软 
辑 既 可 以 用 只 读 存储 器 ( ROM) 也 可 以 用 可 编程 逻辑 阵列 (PLA) 来 实现 (在 附录 A 中 同样 
有 关于 这 些 逻 辑 元 件 的 介绍 )。 












组 合 控制 逻辑 
数据 通路 控制 输出 


cache 数 据 通 路 的 输入 


图 5-38 ”有限 状态 自动 机 控制 器 的 典型 实现 ， 使 用 一 组 组 合 逻辑 和 一 个 保存 当前 状态 的 寄存 
器 实现 。 组 合 逻 辑 的 输出 是 当前 状态 的 下 一 状态 编号 和 被 断言 的 控制 信号 。 组 合 逻 
辑 的 输入 是 当前 状态 和 任 一 可 以 决定 下 一 状态 的 输入 。 需 要 注意 的 是 ， 在 本 章 的 有 
限 状态 自动 机 中 ， 输 出 只 取决 于 当前 状态 ， 而 与 输入 无 关 。 我 们 用 灰色 线 来 表示 这 
些 控制 线 和 好 辑 以 及 数据 线 和 逻辑 。 随 后 的 详细 阐述 对 此 有 更 详细 的 解释 


| 说 细 阐 述 | 请 注意 ， 这 个 简单 的 设计 被 称 为 阻塞 cache， 在 该 设计 中 处 理 器 必须 一 直 等 
待 直 到 cache 完成 请 求 。5.12 节 描 述 了 一 种 被 称 为 非 阻 塞 cache 的 替代 方案 。 

| 详细 阐 述 本 书 中 描述 的 这 种 有 限 状 态 自 动机 被 称 为 Moore 自动 机 ， 以 Edward Moore 
的 名 字 命 名 。 这 种 自动 机 的 标识 特征 是 它 的 输出 只 取决 于 当前 状态 。 对 Moore 自动 机 而 言 ， 
被 标记 为 组 合 控 制 次 辑 的 盒子 可 以 被 分 为 两 个 部 分 ， 其 中 一 部 分 包含 控制 输出 并 且 仅 有 状态 
作为 输入 ， 另 一 部 分 只 包含 下 一 状态 输出 。 

另 一 种 自动 机 是 Mealy 自动 机 ， 以 George Mealy 的 名 字 命 名 。Mealy 自动 机 同时 使 
用 输入 和 当前 状态 来 决定 输出 。Moore 自 和 和 控制 0 
Moore 自动 机 的 速度 优势 在 于 控制 输出 部 分 ， 该 部 分 在 时 钟 周期 开始 时 就 需要 用 到 ， 而 该 部 
分 只 取决 于 当前 状态 而 与 输入 无 关 ， 加 天 关 击 过 这 全 和 在 附录 A 中 ， sn da. 
现 这 种 有 限 状态 自动 机 ， 因 此 可 以 很 明显 地 看 出 它 的 规模 优势 。Moore 自动 机 的 潜在 劣势 是 
需要 额外 的 状态 。 例 如 ， 在 两 个 状态 序列 中 仅 有 一 个 状态 不 同 的 情况 下 ，Mealy 自动 机 会 使 
用 输出 依赖 输入 的 方式 将 状态 统一 。 


5.9.3 ”使 用 有 限 状态 自动 机 作为 简单 的 cache 控制 器 


图 5-39 描述 了 简单 cache 控制 器 的 四 个 状态 
。 空 用 该 状态 等 待 处 理 器 发 出 的 有 效 读 或 写 信和 号， 之 后 有 限 状态 自动 机 跑 转 到 标签 比 
较 状态 。 
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cache 命 中 标签 比较 AN 
区 如 果 有 效 且 命中 ， 
人 设置 有 效 位 和 标签 ,| } 
有 效 CPU 请 求 





cache 失 效 且 
且 旧 块 未 被 重 写 | 旧 块 已 被 重 写 









写 返回 
将 旧 块 
写 入 存储 器 


存储 器 就 绪 


图 5-39 简单 控制 器 的 四 个 状态 


e 标签 比较 : 正如 名 称 所 示 ， 该 状态 检测 读 或 写 请 求 是 命中 还 是 失效 。 地 址 的 索引 部 分 
选择 用 于 比较 的 标签 。 如 果 地 址 中 的 索引 部 分 引用 的 cache 块 中 的 数据 是 有 效 的 ， 并 
且 地 址 中 的 标签 部 分 与 标签 相 匹 配 ， 则 命中 。 如 果 是 加 载 指令 就 从 选择 的 字 中 读 取 数 
据 ， 如 果 是 存储 指令 就 将 数据 写 人 选择 的 字 中 。 之 后 设置 cache 就 绪 信 和 号。 如果 这 是 
一 个 写 操作 ， 脏 位 还 要 设置 为 1。 需 要 注意 的 是 ， 写 命中 也 需要 设置 有 效 位 和 标签 字 
段 ， 即 使 这 看 上 去 并 不 需要 。 这 是 因为 标签 使 用 单独 的 存储 器 ， 因 此 在 改变 脏 位 时 也 
需要 同时 改变 有 效 位 和 标签 字段 。 如 果 发 生命 中 并 且 当 前 块 是 有 效 的 ， 有 限 状 态 自 动 
机 会 返回 空闲 状态 。 失 效 时 先 更 新 cache 标签 ， 之 后 如 果 当 前 块 的 脏 位 为 1， 则 跳 转 
到 写 回 状态 ， 如 果 该 位 为 0， 则 跳 转 到 分 配 状 态 。 
写 返 回 : 该 状态 使 用 由 标签 和 cache 索引 组 成 的 地 址 将 128 位 的 块 写 回 存储 器 。 之 后 
继续 停留 在 该 状态 等 待 存储 器 发 出 就 绪 信 和 号。 等 待 存储 器 写 操作 完成 后 ， 有 限 状 态 自 
动机 跳 转 到 分 配 状态 。 
分 配 : 从 存储 器 中 取出 一 个 新 块 。 之 后 继续 停留 在 该 状态 等 待 存储 器 发 出 就 绪 信 和 号 。 
等 待 存 储 器 读 操 作 完 成 后 ， 有 限 状态 自动 机 跳 转 到 标签 比较 状态 。 尽 管 我 们 可 以 不 重 
新 使 用 标签 比较 状态 而 跳 转 到 一 个 新 的 状态 完成 操作 ， 但 是 分 配 状态 之 后 的 操作 与 标 
符 比 较 状态 的 操作 有 大 量 的 重叠 ， 包 括 当 访 问 为 写 操 作 时 更 新 块 中 相应 的 字 。 

这 个 简单 模型 很 容易 扩展 至 更 多 的 状态 以 提升 性 能 。 例 如 ， 标 签 比较 状态 在 一 个 时 钟 周 
期 内 同时 做 了 比较 操作 和 cache 数据 的 读 和 写 操 作 。 通 常会 将 比较 操作 和 cache 访问 操作 分 
成 两 个 状态 以 改进 每 个 时 钟 周期 所 需 的 时 间 。 男 一 个 优化 是 添加 一 个 写 缓存 ， 这 样 可 以 保存 
脏 块 ， 之 后 就 可 以 提前 读 取 新 的 块 ， 使 得 处 理 器 在 脏 块 缺 失 时 无 须 等 待 两 次 存储 器 访问 。 之 
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后 cache 会 从 写 缓 存 中 将 脏 块 写 回 ， 同 时 处 理 器 处 理 被 请 求 的 数据 。 
5.12 节 中 对 有 限 状 态 自动 机 进行 了 更 详细 的 描述 ， 用 硬件 描述 语言 描述 了 整个 控制 器 ， 
并 展示 了 这 个 简单 cache 的 框图 。 


5.10 ”并 行 和 存储 层次 结构 : cache 一 致 性 


假定 一 个 多 核 多 处 理 器 意味 着 在 一 个 单 芯 片上 有 多 个 处 理 器 ， 这 些 处 理 器 很 可 能 共享 一 
共同 的 物理 地 址 空间 。cache 共享 数据 引入 了 一 个 新 的 问题 ， 由 于 两 个 不 同 的 处 理 器 保存 
ee 它们 各 自 的 cache 得 到 的 ， 如 果 没 有 任何 额外 的 保护 措施 ， 那 么 处 理 避 
可 能 看 到 两 个 不 同 的 值 。 图 5-40 ve TA 人 问题， 并 且 展 示 了 对 于 同一 个 地 址 两 个 不 同 的 
处 理 吉 是 如 何 有 两 个 不 同 的 值 的。 这 个 难点 通常 被 称 为 cache 一 致 性 问题 。 


| 
天 
EE OO 


CPU B 读 X 
CPU A 向 Xx 写 入 1 | 
图 5-40 ”两 个 处 理 器 A 和 B 对 同一 个 内 存 位 置 X 的 读 写 造成 的 cache 一 致 性 问题 。 我 们 假 
设 最 初 两 个 处 理 器 的 cache 中 都 不 包含 该 变量 ， 且 X 的 值 为 0。 我 们 还 假设 这 里 的 
cache 是 写 直 达 cache， 如 果 是 写 返 回 cache 则 会 增加 一 些 额外 但 是 相似 的 复杂 情 
况 。 在 X 的 值 被 A 写 人 后 ，A 的 cache 和 内 存 中 均 保 存 新 值 ， 但 是 B 的 cache 中 
的 值 没有 改变 ， 如 果 此 时 B 读 取 XX 的 值 ， 会 得 到 原 值 0 而 不 是 新 值 1 


简单 来 说 ， 如 果 对 任何 一 个 数据 项 的 读 取 都 能 返回 该 数据 项 最 近 被 写 人 的 值 ， 则 称 这 样 
的 存储 系统 是 一 致 的 。 虽 然 在 直观 上 这 个 含糊 而 简单 的 定义 很 易 懂 ， 但 实际 的 情况 会 比 这 个 
定义 更 加 复杂 。 这 个 简单 的 定义 涵盖 了 存储 器 系统 行为 的 两 个 不 同方 面 ， 这 两 个 方面 对 于 纺 
写 正 确 的 共享 存储 程序 都 非常 重要 。 第 一 个 方面 称 为 一 致 性 ( cache coherence)， 定 义 了 读 取 
操作 会 返回 什么 值 。 第 二 个 方面 称 为 连续 性 ( memory consistency)， 定 义 了 写 人 的 值 什么 时 
候 会 被 读 取 操 作 返 回 。 

首先 看 一 致 性 。 如 果 满 足以 下 属性 ， 则 称 一 个 存储 系统 是 一 致 的 : 

1. 在 处 理 器 P 对 位 置 X 的 值 写 人 后 , P 读 X 的 值 ， 如 果 在 P 对 X 的 写 和 读 操 作 之 间 没 
有 其 他 处 理 器 对 X 的 写 操作 ， 那 么 本 次 读 一 定 可 以 返回 P 写 入 的 值 。 因 此 ， 在 图 5-40 中 ， 
如 果 CPU A 在 第 3 步 后 读 X 的 值 ， 返 回 值 应 为 1。 

2. 如 果 一 个 处 理 器 对 位 置 X 的 读 操作 是 跟随 在 另 一 个 处 理 器 写 人 X 值 之 后 ， 并 且 读 操 
作 和 写 操作 之 间 有 足够 的 时 间 间 隔 、 在 两 次 对 X 的 访问 之 间 没 有 其 他 写 人 X 的 操作 ， 那 么 
本 次 读 操作 应 该 返回 上 次 写 人 的 值 。 因 此 ， 在 图 5-40 中 ， 需 要 一 个 机 制 使 得 在 第 3 步 CPU 
A 将 值 1 写 人 存储 器 位 置 X 后 ,将 CPU B cache 中 的 值 0 替换 为 1。 

3. 对 同一 位 置 的 写 和 人 操作 是 串 行 的 。 也 就 是 说 ， 两 个 处 理 器 对 同一 位 置 的 两 次 写 人 操作 
在 其 他 处 理 器 看 来 都 具有 相同 的 顺序 。 例 如 ， 如 果 CPU B 在 第 3 步 后 在 存储 右 位 置 X 上 存 
入 值 2， 那 么 处 理 器 永远 不 可 能 在 读 X 值得 到 2 之 后 再 次 读 X 值得 到 1。 
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第 一 个 属性 仅仅 保留 了 程序 的 顺序 一 一 我 们 当然 希望 这 个 属性 在 单 处 理 机 中 是 正确 的 。 
第 二 个 属性 定义 拥有 存储 器 的 一 致 性 意味 着 什么 的 概念 : 如 果 一 个 处 理 器 总 是 读 取 到 旧 的 数 
据 值 ， 我 们 就 可 以 很 清楚 地 说 这 个 存储 器 是 不 一 致 的 。 

对 写 操作 串 行 化 的 需求 更 加 精细 ， 但 是 也 同样 重要 。 假 设 没 有 将 写 操作 串 行 化 ， 并 且 
处 理 器 Pl 写 和 位置 X， 之 后 P2 也 写 和 位置 X。 串 行 化 写 操作 确保 每 个 处 理 器 都 可 以 在 某 个 
时 刻 看 到 P2 写 和 人 的 结果 。 如 果 没 有 串 行 化 写 操作 ， 就 可 能 有 一 些 处 理 器 先 看 到 P2 写 入 的 
结果 ， 随 后 又 看 到 P1 写 入 的 结果 ， 最 终 可 能 保留 P1 写 入 的 值 。 避 免 这 种 情况 的 最 简单 的 
方法 就 是 确保 对 同一 位 置 的 所 有 写 操作 都 以 相同 的 顺序 被 观察 到 ， 这 就 是 我 们 说 的 写 操作 串 
行 化 。 


5.10.1 实现 一 致 性 的 基本 方案 


在 一 个 支持 cache 一 致 性 的 多 处 理 器 中 ，cache 为 每 个 共享 数据 项 提供 迁移 和 复制 : 

e 迁移 : 数据 项 可 以 移动 到 本 地 cache 并 以 透明 的 方式 被 使 用 。 迁 移 减 少 了 访问 远程 分 
配 的 共享 数据 项 的 延迟 ， 也 减少 了 共享 存储 器 的 带宽 需求 。 

e 复制 : 当 同 时 读 取 共享 数据 时 ，cache 会 在 本 地 cache 中 创建 数据 项 的 副本 。 复 制 减 
少 了 读 取 共享 数据 项 的 访问 延迟 和 争 用 。 

支持 迁移 和 复制 对 于 访问 共享 数据 的 性 能 至 关 重 要 ， 因 此 许多 处 理 器 都 采用 硬件 协议 来 
维护 cache 的 一 致 性 。 维 护 多 个 处 理 器 之 间 的 一 致 性 的 协议 被 称 为 cache 一 致 性 协议 。 实 现 
cache 一 致 性 协议 的 关键 是 追踪 每 一 个 共享 数据 块 的 状态 。 

最 常用 的 cache 一 致 性 协议 是 监听 。cache 中 既 包含 物理 存储 器 数据 块 副 本 ， 也 含有 该 
数据 块 的 共享 状态 ， 但 并 不 集中 保留 状态 。 这 些 cache 都 可 以 通过 一 些 广播 媒介 (总 线 或 网 
络 ) 访问 ， 而 且 所 有 的 cache 控制 器 都 可 以 监视 或 监听 媒介 ， 以 确定 它们 是 和 否 有 总 线 或 交换 
机 的 访问 所 需 的 数据 块 的 副本 。 

在 下 面 的 章节 中 ， 我 们 将 介绍 通过 共享 总 线 来 实现 的 基于 监听 的 cache 一 致 性 ， 任 何 可 
以 向 所 有 处 理 器 广播 cache 失效 的 通信 介质 都 可 以 用 于 实现 基于 监听 的 一 致 性 策略 。 这 种 向 
所 有 cache 广播 的 方法 使 得 监听 协议 易于 实现 ， 但 同时 限制 了 它 的 可 扩展 性 。 


5.10.2 监听 协议 


一 种 实现 一 致 性 的 方法 是 确保 处 理 器 在 写 人 一 个 数据 项 前 可 以 独占 访问 该 项 。 这 种 协议 
被 称 为 写 无 效 协 议 ， 因 为 它 在 写 和 人 时 使 得 其 他 cache 中 的 副本 无 效 。 独 占 访 问 可 确保 在 写 入 
时 没有 该 项 的 其 他 可 读 写 副 本 存在 : 所 有 该 项 的 其 他 cache 中 的 副本 都 将 失效 。 

图 5-41 是 一 个 使 用 写 回 cache 的 监听 总 线 失效 协议 的 示例 。 为 说 明 这 个 协议 如 何 确保 
一 致 性 ， 考 虑 一 个 写 操作 后 跟随 着 另 一 个 处 理 器 的 读 操作 的 情景 : 因为 这 个 写 操作 需要 独占 
性 访问 ， 所 以 发 出 读 操 作 的 处 理 器 cache 中 保存 的 任意 副本 均 会 失效 。 因 此 ， 当 发 出 读 操作 
时 ， 会 造成 一 次 cache 失效 ，cache 被 迫 去 获取 该 数据 的 最 新 副本 。 对 写 操作 而 言 ， 我 们 要 
求 写 入 处 理 器 有 独占 访问 权限 ， 以 防止 任何 其 他 处 理 器 能 够 同时 写 信 。 如 果 两 个 处 理 器 确实 
同时 试图 写 和 人 相同 的 数据 ,那么 只 有 其 中 一 个 处 理 器 能 够 赢得 写 权 限 ， 同 时 也 会 导致 其 他 处 
理 咒 的 副本 失效 。 其 他 处 理 需 想 要 完成 写 人 必须 获得 该 数据 的 最 新 副本 ， 这 个 最 新 副本 必须 
包含 已 经 被 更 新 的 值 。 因 此 ， 该 协议 还 强制 实现 了 写 操作 串 行 化 。 





处 理 器 行为 总 线 行为 CPU Cache CPU ba cache | 存储 器 位 置 
内 容 | 
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图 5-41 一 个 使 用 写 回 cache 的 在 单个 cache 块 X 上 工作 的 监听 总 线 的 失效 协议 示例 。 我 们 
假设 最 初 两 个 处 理 器 的 cache 中 都 不 包含 该 变量 ， 且 X 的 值 为 0。CPU 和 存储 器 
中 的 内 容 显示 在 处 理 器 和 总 线 活 动 都 完成 之 后 的 值 。 空 白 表 示 没 有 活动 或 者 没有 
cache 副本 。 当 CPU B 发 生 第 二 次 缓存 失效 时 ，CPU A 回应 ， 同 时 取消 来 自 存储 器 
的 响应 。 随 后 ，B 中 cache 的 内 容 和 存储 器 中 X 中 的 内 容 同时 被 更 新 。 这 种 当 块 共 
et 但 只 有 在 块 被 替换 时 才 可 以 追踪 所 有 权 并 强制 
写 回 。 这 需要 引入 一 个 被 称 为 “所 有 者 ”的 附加 状态 ， 该 状态 表示 块 可 以 被 共享 ， 
se 者 处 理 器 负责 在 更 改 块 或 替换 块 时 更 新 其 他 处 理 器 和 存储 器 


| 硬件 1 软件 接口 一 种 观点 认为 块 大 小 在 cache 一 致 性 中 起 重 | 错误 共享 : 当 两 个 不 相关 
要 作用 。 以 在 一 个 块 大 小 为 8 字 的 cache 上 监听 为 例 ， 两 个 处 理 器 | 的 共享 变量 位 于 同一 个 组 
可 以 对 一 个 字 交 替 进 行 读 写 。 大 多 数 协议 在 处 理 器 之 间 交 换 完整 块 ， | 在 块 中 时 ， 中 使 处 理 器 下 

在 访问 不 同 的 变量 ， 也 

pe the ee 

大 的 块 还 会 导致 所 谓 的 错误 共享 : 当 两 个 不 相关 的 共享 变量 位 | 的 块 。 
于 同一 个 cache 块 中 时 ， 即 使 处 理 器 正在 访问 的 是 不 同 的 变量 ， 处 
理 器 之 间 交 换 的 也 会 是 一 整个 块 。 程 序 员 和 编译 器 应 该 仔细 放置 数据 以 避免 错误 共享 。 

| 吕 细 亲 壕 | 尽管 5.10 节 开 始 处 讲 的 三 个 属性 已 经 足以 确保 一 致 性 ， 但 是 被 写 入 的 值 何 
时 可 以 被 看 到 ， 这 个 问题 同样 很 重要 。 来 看 看 这 是 为 什么 。 注 意 在 图 5-40 中 我 们 不 能 要 求 
对 义 的 读 取 能 够 立刻 看 到 其 他 处 理 器 写 入 义 的 值 。 例 如 ， 如 果 一 个 处 理 器 对 XX 的 写 入 仅仅 
比 另 一 个 处 理 器 对 义 的 读 取 早 了 很 短 的 时 间 ， 那 很 可 能 无 法 确保 读 取 操作 可 以 返回 这 次 写 入 
的 值 ， 因 为 写 入 数据 在 被 读 取 的 那 一 刻 甚至 可 能 还 没有 离开 处 理 器 。 这 个 写 入 值 何 时 可 以 补 
其 他 读 取 操作 看 到 的 问题 由 存储 器 一 致 性 模型 详细 定义 。 

我 们 做 出 以 下 两 个 假设 。 第 一 ， 直 到 所 有 处 理 器 都 可 以 看 到 写 入 的 结果 时 写 操作 才 算 完 
成 。( 在 没有 完成 时 不 允许 下 一 次 写 操作 发 生 。) 第 二 ， 相 对 于 其 他 存储 器 访问 操作 处 理 器 不 
会 改变 任何 写 操作 的 顺序 。 这 两 个 条 件 意 味 着 如 果 处 理 器 在 写 入 位 置 X 后 又 写 入 了 位 置 了 ， 
则 任何 看 到 六 的 新 值 的 处 理 器 都 必须 能 看 到 义 的 新 值 。 这 些 假设 允许 处 理 器 对 读 操作 进行 
重 排序 ， 但 是 强制 处 理 器 按照 程序 顺序 完成 写 入 。 

| 说 细 阐 述 因为 输入 都 是 先 改变 cache 后 才 更 新 存储 器 ， 并 且 在 写 回 cache 中 更 新 操作 
需要 最 新 的 值 。 所 以 犹如 多 处 理 器 之 间 的 cache 一 样 ， 单 处 理 器 的 cache 与 IO 之 间 也 存在 
一 致 性 问题 。 多 处 理 器 和 1/O 的 cache 一 致 性 问题 ( 见 第 6 章 ) 虽然 起 源 相似 ， 但 它们 具有 
不 同 的 特性 ， 也 影响 了 相应 的 解决 方案 。 与 很 少 拥有 多 个 数据 副本 的 IO 不 同一 一 应 该 尽 可 
能 地 避免 这 种 情况 发 生 一 一 在 多 个 处 理 器 上 运行 的 程序 通常 会 在 多 个 cache 中 拥有 相同 数据 
的 副本 。 

[详细 阐述 除了 共享 块 状态 呈 分 布 式 的 缓存 一 致 性 监听 协议 之 外 ， 基 于 目录 的 cache 一 
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致 性 协议 还 将 物理 存储 块 的 共享 状态 保存 在 一 个 称 为 目录 的 位 置 。 基 于 目录 的 一 致 性 协议 实 
现 开销 比 监 听 略 高 ， 但 它 可 以 减少 cache 之 间 的 交互 ， 并 因此 可 以 扩展 到 更 多 的 处 理 器 数量 。 


国 5.11 并行 与 存储 层次 结构 : 廉价 磁盘 宛 余 阵列 








本 章节 为 网 络 章节 ， 描 述 了 如 何 使 用 多 个 磁盘 来 提供 更 高 的 吞吐 量 ， 这 是 廉价 磁盘 元 余 
阵列 (RAID) 的 最 初 灵感 。 然 而 ，RAID 真正 普及 的 原因 是 采用 适当 数量 的 元 余 磁盘 所 带 来 
的 更 大 可 靠 性 。 本 节 介 绍 不 同 RAID 级 别 之 间 的 性 能 、 成 本 和 可 靠 性 等 方面 的 差异 。 


5.12 ”高 级 专题 ， 实现 缓存 控制 器 


本 章节 为 网 络 章节 ， 展 示 了 如 何 实现 对 缓存 的 控制 ， 就 像 在 第 4 章 中 实现 对 单 周 期 、 流 
水 线 数据 通路 的 控制 一 样 。 本 节 首 先 介绍 了 有 限 状 态 自动 机 以 及 在 简单 数据 缓存 中 实现 缓存 
控制 器 ， 包 括 用 硬件 描述 语言 中 描述 cache 控制 器 。 之 后 详细 介绍 了 一 个 缓存 一 致 性 协议 的 
示例 以 及 实现 此 类 协议 的 难点 。 


5.13 实例: ARM Cortex-A53 和 Intel Core i7 的 存储 层次 结构 


本 节 介 绍 第 4 章 中 描述 的 两 种 微 处 理 器 ARM Cortex-A53 和 Intel Core i7 的 存储 器 层次 
结构 。 本 节 内 容 基 于 《计算 机 体系 结构 : 量化 研究 方法 (第 5 版 ) 中 的 2.6 节 。 

图 5-42 总 结 了 这 两 个 处 理 器 的 地 址 尺寸 和 TLB。 需 要 注意 的 是 Cortex-A53 具有 两 个 10 
个 表 项 全 相 联 的 微 TLB， 它 们 由 共享 的 512 个 表 项 四 路 组 相 联 的 主 TLB 以 及 一 个 48 位 虚拟 
地 址 空间 和 一 个 40 位 物理 地 址 空间 支持 。Core i7 有 三 个 具有 48 位 虚拟 地 址 和 44 位 物理 地 
址 的 TLB。 虽 然 这 些 处 理 器 的 64 位 寄存 器 可 以 支持 更 大 的 虚拟 地 址 空间 ， 但 是 没有 软件 需 
要 这 么 大 的 空间 ， 而 48 位 虚拟 地 址 可 以 缩小 页 表 内 存 占用 ， 还 可 以 简化 TLB 硬件 。 


ARM Cortex-A53 Intel Core i7 














虚拟 地 址 48 位 48 位 
物理 地 址 40 位 44 位 
页 表 大 小 可 变 : 4、16、64KiB，1、2MiB，1GiB 可 变 : 4KiB，2/4MiB 
TLB 组 织 1 个 指令 TLB 和 1 个 数据 TLB 1 个 指令 TLB 和 1 个 数据 TLB 
两 个 TLB 均 为 全 相 联 ，10 个 表 项 ， 轮 转 替 两 个 TLB 均 为 四 路 组 相 联 ，LRU 替 换 策 略 
换 ( RR ) 策略 L1 HTLB 对 于 小 尺寸 页 面 有 128 个 表 项 ， 每 
64 个 表 项 ， 四 路 组 相 联 的 主 TLB 个 线程 对 大 页 面 有 7 个 表 项 
硬件 处 理 TLB 缺 失 L1 D-TLB 对 于 小 尺寸 页 面 有 64 个 表 项 ， 对 
于 大 页 面 有 32 个 表 项 
L2 TLB 四 路 组 相 联 ，LRU 替 换 策略 
L2 TLB 有 512 个 表 项 
硬件 处 理 TLB 缺 失 

















图 5-42 ARM Cortex-A53 和 Intel Core i7 920 的 地 址 转换 和 TLB 硬件 。 两 个 处 理 器 均 支持 
大 页 ， 这 些 大 页 用 于 操作 系统 或 映射 帧 缓冲 区 等 内 容 。 大 页 方案 避免 使 用 大 量 条 目 
来 映射 始终 存在 的 单个 对 象 


图 5-43 展示 了 它们 的 缓存 。Cortex-A53 拥有 1 一 4 个 处 理 器 (或 核 )， 而 Core i7 则 固定 
有 4 个 。Cortex-A53 每 个 核 都 有 一 个 16 ~ 64KiB 二 路 组 相 联 的 L1 指令 缓存 ， 而 Core i7 有 
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一 个 32KiB 四 路 组 相 联 的 L1 指令 缓存 。cache 块 大 小 为 64 字 节 。Cortex-A53 将 数据 缓存 的 
关联 度 增加 至 四 路 ， 其 他 变量 保持 不 变 。 类 似 的 ，Core i7 除了 将 相 联 度 增 加 至 八路 外 保持 其 
他 变量 一 致 。Core i7 为 每 个 核 提 供 一 个 256KiB 八路 组 相 联 的 统一 L2 缓存 ， 块 大 小 为 64 字 
节 。 相 比 之 下 ，Cortex-A53 提供 了 一 个 在 1 一 4 个 核 之 间 共 享 的 L2 缓存 。 该 缓存 为 十 六 路 
组 相 联 ， 块 大 小 为 64 字 节 ， 大 小 在 128KiB ~ 2MiB 之 间 。 由 于 Core i7 用 于 服务 器 ， 它 还 
提供 了 由 片上 所 有 核 共享 的 L3 缓存 。 其 大 小 取决 于 核 的 数量 。 在 有 四 个 核 的 情况 下 ， 它 的 
大 小 为 8MiB。 


特性 ARM Cortex-A53 Intel Core i7 
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3 写 返 回 ， 可 变 分 配 策略 WV 
L1 命 中 时 间 (load ) 2 个 时 钟 周期 4 个 时 钟 周期 ， 流 水 执行 
统一 ( 指令 和 数据 ) 每 个 核 统一 ( 指令 和 数据 ) 




























1 
L2 cache 相 联 度 十 六 路 组 相 联 八路 组 相 联 


12 个 时 名 周期 10 个 时 名 周期 
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L3 蔡 换 策略 | | FR 
em -oo | 
mm ss | 


L3 命 中 时 间 35 个 时 钟 周期 


图 5-43 ARM Cortex-A53 和 Intel Core i7 920 的 cache 


名 
卜 四 后 
已， 
L3 cache 容 量 8MiB， 共 享 
名 





缓存 设计 人 员 面 临 的 一 个 重大 挑战 是 支持 像 Cortex-A53 和 Core i7 这 样 的 可 以 在 每 个 时 
钟 周 期 执行 一 条 以 上 的 访 存 指令 的 处 理 器 。 一 种 通常 的 做 法 是 将 缓存 分 成 多 个 bank 并 在 访 
问 不 同 bank 的 前 提 下 人 允许 多 个 独立 的 并 行 访问 。 这 种 技术 类 似 于 DRAM bank 交错 式 访问 
(参见 5.2 节 让 

Cortex-A53 和 Core 这 采用 了 额外 的 优化 技术 ， 从 而 可 以 减少 “| 非 阻塞 cache : 允许 处 理 
缺失 代价 。 其 中 第 一 项 是 在 缺失 时 先 返回 关键 字 。 处 理 器 还 会 在 缓 。| 器 在 处 理 前 面 的 cache 缺 
存 缺失 期 间 继续 执行 访问 数据 缓存 的 指令 。 设 计 人 员 通 常 使 用 一 种 “| 失 时 仍 可 以 访问 cache。 
被 称 为 非 阻塞 cache 的 技术 来 试图 隐藏 缓存 缺失 延迟 。 缺 失 下 命中 
( hit under miss) 允许 在 缺失 期 间 有 其 他 的 缓存 命中 ， 缺 失 下 缺失 ( miss under miss) 允许 发 
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生 多 个 未 完成 的 缓存 缺失 。 第 一 种 技术 的 目的 是 通过 其 他 工作 来 隐藏 缺失 延迟 ， 第 二 种 技术 
的 目的 是 重叠 两 个 不 同 缺 失 的 延迟 。 

重 和 至 多 个 未 完成 缺失 的 大 部 分 缺失 时 间 需 要 一 个 能 并 行 处 理 多 个 缺失 的 高 带宽 存储 系 
统 。 个 人 移动 设备 的 存储 系统 通常 可 以 流水 化 、 合 并 、 重 排 或 优先 化 请 求 。 大 型 服务 器 和 多 
处 理 器 通常 具有 能 够 并 行 处 理 多 个 未 完成 缺失 的 存储 器 系统 。 

Cortex-A53 和 Core i7 采用 了 数据 访问 的 预 取 机 制 。 它 们 会 查看 数据 缺失 的 模式 ， 使 用 
这 些 信息 来 尝试 预测 下 一 个 数据 访问 的 地 址 ， 在 缺失 发 生 之 前 就 从 预测 的 地 址 开始 获取 数 
据 。 这 种 技术 在 循环 访问 数组 时 通常 具有 很 好 的 效果 。 

这 些 芯 片 的 复杂 存储 系统 和 大 部 分 专用 于 缓存 和 TLB 的 模块 体现 出 为 了 缩小 处 理 器 时 
钟 周期 和 存储 器 延迟 之 间 的 差距 所 花费 的 大 量 努 力 。 


Cortex-A53 和 Core i7 存储 器 层次 结构 的 性 


测试 Cortex-A53 的 存储 器 层次 结构 时 使 用 了 一 个 32KiB 二 路 组 相 联 的 LI1 指令 缓存 ， 
一 个 32KiB 四 路 组 相 联 的 L1 数据 缓存 ， 还 有 一 个 1MiB 十 六 路 组 相 联 的 L2 缓存 ， 运 行 在 
SPEC2006 整数 基准 测试 上 。 

Cortex-A53 在 这 些 基 准 测 试 上 的 指令 缓存 缺失 率 非常 小 。 图 5-44 是 Cortex-A53 的 数据 
缓存 结果 ， 其 中 标注 了 明显 的 L1 和 L2 的 缺失 率 。L1 数据 缓存 缺失 率 在 0.5% 至 37.3% 之 
间 ， 平 均值 为 6.4%， 中 位 数 为 2.4%。 全 局 L2 缓存 的 缺失 率 在 0.1% 至 9.0% 之 间 , 平均 值 
为 1.3%， 中 位 数 为 0.3%。1GHz 的 Cortex-A53 上 的 直 1 缺失 代价 为 12 个 时 钟 周期 ， 而 直 2 
的 缺失 代价 为 124 个 时 钟 周 期 。 图 5-45 显示 了 在 这 种 缺失 代价 下 每 次 数据 访问 的 平均 缺失 
代价 。 当 这 些 低 缺 失 率 乘 以 高 缺失 代价 时 ， 可 以 看 到 它们 在 12 个 SPEC2006 程序 的 5 个 中 
都 占据 了 很 大 一 部 分 。 


40.0% 





—-L1 Data Miss Rate 


35.0% | L2 Data Miss Rate 


30.0% 





25.0% 上 一 








20.0% 


Ed 
10.0% 


Miss Rate 








0.0% i r a 
QO 
0 
< KG RN S LS < 
x 2 bX 9 
NN * 


图 5-44 运行 SPEC2006 整数 基准 测试 时 ARM Cortex-A53 的 数据 缓存 缺失 率 。 内 存 占用 率 
较 大 的 应 用 程序 在 Ll1 和 L2 中 的 缺失 率 往往 较 高 。 需 要 注意 的 是 L2 中 的 缺失 率 为 
全 局 缺失 率 ， 也 就 是 包含 那些 在 L1 中 命中 的 访问 。mcf 是 缓存 不 友好 的 程序 。 注 
意 ， 该 图 与 图 4-74 使 用 相同 的 系统 和 基准 测试 程序 
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图 5-45 ARM 处 理 器 运行 SPEC2006 整数 基准 测试 时 Ll 和 L2 的 平均 存储 器 访问 代价 (以 
时 钟 周期 计 )。 尽 管 L1 的 缺失 率 比 较 高 ， 但 是 L2 的 缺失 代价 高 了 5 倍 以 上 ， 这 意 
味 着 L2 缺失 对 性 能 的 影响 非常 大 


5-46 显示 了 在 SPEC2006 基准 测试 下 Core i7 的 缓存 缺失 率 。L1 指令 缓存 的 缺失 率 在 
0.1% 至 1.8% 之 间 ， 平 均值 仅 比 0.4% 多 一 点 。 该 缺失 率 与 SPEC2006 基准 测试 在 其 他 研究 
中 的 缺失 率 一 致 。L1 数据 缓存 的 缺失 率 在 5% 至 10% 之 间 ， 有 时 会 变 得 更 高 。L2 和 LL3 组 
存 的 重要 性 是 显而易见 的 。L2 的 缺失 代价 在 100 个 时 钟 周 期 以 上 ， 并且 缺失 率 为 4%， 因 此 
L3 缓存 非常 关键 。 假 设 一 半 的 指令 是 load 或 store 指令 ， 如 果 没 有 L3 缓存 ， 那 么 L2 缓存 
的 缺失 会 导致 CPI 增 加 21 相 比 之 下 ,虽然 L3 缓存 1% 的 缺失 率 依然 很 高 ， 但 是 比 L2 的 缺 
失 率 低 了 4 倍 ， 比 工 1 的 缺失 率 低 了 6 售 。 

25% 

L1 Data Miss Rate 
一 占 一 |L2 Data Miss Rate 


20% - 盘 -L3 Data Miss Rate 


15% 
10% 


5% 





图 5-46 ”Intel Core i7 920 运行 SPEC2006 整数 基准 测试 时 的 Ll1、L2 和 1L3 数据 缓存 缺失 率 
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| 详细 阐述 由 于 推测 执行 有 可 能 是 错误 的 ( 见 第 4 章 )， 所 以 对 Ll 数据 缓存 进行 的 访问 
不 对 应 于 最 终 完成 的 load 和 store 指令 ， 有 一 些 对 Ll 数据 缓存 进行 访问 的 load 和 store 指 
令 最 终 没 有 执行 。 图 5-44 中 的 数据 是 对 所 有 数据 请 求 的 统计 ， 包 括 那 些 最 终 被 取消 的 访问 。 
真正 完成 的 数据 访问 的 缺失 率 比 测量 的 缺失 率 要 高 1.6 倍 (L1 缓存 的 平均 缺失 率 为 9.5% 而 
不 是 5.9%)。 


5.14 实例 ; RISC-V 系统 的 其 他 部 分 和 特殊 指令 


图 5-47 列 出 了 剩余 的 13 条 RISC-V 指令 ， 它 们 用 于 特殊 用 途 和 系统 类 。 

栅栏 指令 为 指令 (fence.i)、 数 据 (fence) 和 地 址 转换 ( sfence.vma) 提供 同步 
栅栏 。 第 一 条 指令 fence .ji 通知 处 理 器 软件 已 修改 指令 存储 器 ， 以 保证 获取 指令 时 可 以 得 
到 更 新 后 的 指令 。 第 二 条 指令 fence 影响 多 处 理 器 和 IO 的 数据 存储 器 访问 顺序 。 第 三 条 
间 令 sfence.vma 通 知 处理 器 软件 已 修改 
页 表 ， 以 保证 地 址 转换 时 可 以 得 到 更 新 后 的 






























































数据 。 类 型 助 记 符 名 称 

六 个 控制 和 状态 寄存 器 (CSR) 访问 指令 | nce 二 一 他 

年 储 器 顺序 fence 栅栏 

在 通用 寄存 器 和 CSR 之 间 移 动 数据 。csrrwi non vl 
( CSR 读 / 写 立即 数 ) 指令 将 CSR 复制 到 整数 SCFFwi CSR 读 / 写 立 即 数 
寄存 器 ， 然 后 用 立即 数 履 盖 CSR。csrrsi scrpsi CSR 读 /设置 立即 数 
(CSR 读 取 /设置 立即 数 ) 指令 将 CSR 复制 到 上 
整数 寄存 器 ， 然 后 用 CSR 的 按 位 OR 和 立即 和 
数 覆 盖 CSR。csrrci (CSR 读 取 / 清 除 ) 指 a CSR 读 /清除 
令 与 csrrsi 指令 类 似 , 但 是 清除 位 而 不 是 ecall 环境 调用 例外 
设置 它们 。CSrrw、csrrs 和 Csrrec 指令 与 系统 ebreak 环境 断 点 例外 
上 述 三 条 指令 的 功能 类 似 ， 区 别 是 使 用 寄存 器 本 人 
操作 数 而 非 立 即 数 。 el 2 

有 两 个 指令 的 唯一 目的 是 生成 例外 : 图 5-47 完整 RISC-V 指令 集中 系统 和 特殊 操 
ecal1 生成 环境 调用 例外 以 调用 操作 系统 ， 全 交 计 捕 司 本 提 信和 


ebreak 生成 断 点 例外 以 调用 调试 希 。 管 理 态 
例外 返回 指令 (sret) 允许 程序 从 例外 处 理 程序 返回 。 
最 后 ， 等 待 中 断 指令 (wfi ) 通知 处 理 需 它 将 进入 空闲 状态 ， 一 直 持 续 到 中 断 发 生 。 


5.15 加速: cache 分 块 和 和 矩阵 乘法 

除了 第 3 章 和 第 4 章 中 的 子 字 并 行 和 指令 级 并 行 技术 外 ， 通 过 定制 底层 硬件 来 提高 
DGEMM 性 能 的 一 系列 操作 的 下 一 步 是 为 优化 添加 cache 分 块 技术 。 图 5-48 显示 了 图 4-78 
中 DGEMM 的 添加 cache 分 块 后 的 版 本 。 这 些 变 化 与 之 前 从 图 3-22 中 未 经 优化 的 DGEMM 
到 图 5-21 中 分 块 DGEMM 的 变化 相同 。 这 次 我 们 从 第 4 章 中 取出 DGEMM 的 展开 版 本 ， 并 
在 A、B 和 C 的 子 矩阵 上 多 次 调用 它 。 实 际 上 ， 除 了 第 7 行 中 的 循环 增 量 增 大 了 之 外 ， 图 
5-48 中 的 第 28 一 34 行 和 第 7 一 8 行 与 图 5-21 中 的 第 14 一 20 行 和 第 5 一 6 行 一 一 对 应 。 

与 前 面 的 章节 不 同 ， 本 章 没 有 给 出 生成 的 x86 代码 ， 因 为 分 块 并 不 会 影响 计算 ， 只 会 影 
响 访问 内 存 中 数据 的 顺序 ， 所 有 内 部 循环 代码 与 图 4-79 几乎 完全 相同 ， 不 同 点 在 于 循环 语 








句 的 循环 边界 助 记 符 发 生 了 改变 (由 m 变 为 si+blocksize)。 图 4-78 中 内 循环 前 有 14 条 
指令 ， 内 循环 后 有 8 条 指令 ， 在 图 5-48 中 ， 因 为 循环 边界 助 记 符 发 生 了 改变 ， 这 些 指令 的 
数量 被 扩展 到 内 循环 前 有 40 条 指令 ， 内 循环 后 有 28 条 指令 。 虽 然 指 令 条 数 增 加 了 ， 但 是 
相 比 于 cache 失效 率 减少 对 性 能 提升 做 出 的 贡献 ， 执 行 这 些 额 外 指令 的 开销 就 显得 微不足道 
了 。 图 5-49 对 比 了 使 用 未 优化 技术 的 性 能 和 采用 子 字 并 行 、 指 令 级 并 行 和 cache 分 块 优化 技 
术 后 的 性 能 。 对 于 较 大 的 和 抢 阵 来 说 ，cache 分 块 循环 展开 的 AVX 代码 提升 了 2 ~ 2.5 倍 的 性 
能 。 当 我 们 将 未 优化 的 代码 与 使 用 所 有 这 三 种 技术 优化 后 的 代码 进行 比较 时 ， 性 能 的 改进 是 
8~15 们 ， nn 

| 详细 阐述 正如 3.9 节 中 的 详细 阐述 所 述 ， 结果 是 在 Turbo 模式 关闭 的 情况 下 得 到 
的 。 如 第 3 章 和 第 4 章 所 述 ， 如 果 打 开 Turbo ee 就 会 通过 临时 增加 3.3/2.6=1.27 倍 时 钟 
速率 的 方式 来 改善 所 有 结果 。 这 种 情况 下 Turbo 模式 的 运行 效果 非常 好 ， 因 为 它 仅 使 用 了 八 
核 芯 片 中 的 一 个 核 。 但 是 如 果 想 要 运行 得 更 快 ， 就 应 该 使 用 所 有 的 内 核 ， 在 第 6 章 中 将 会 介 
绍 这 种 情况 。 





1 #include <x86intrin.h> 
2 #define UNROLL (4) 
3 #define BLOCKSIZE 32 
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{ 
for ( int i = Si® 1 « STFBLOGCKSIZE; 1i+=UNROLL*4. ) 
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28 void dgemm (int n, double* A, double* B, double* C) 
{ 
fy | P| “ Si t= BLOCKSTZE 9 
fap” CT i ; ST = BLOCKSTZE ) 
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图 5-48 图 4-78 中 的 DGEMM 使 用 cache 分 块 技术 优化 后 的 C 语言 版 本 。 这 些 变化 与 图 5-21 
中 的 变化 相同 。 编 译 器 为 do_block 函数 生成 的 汇编 代码 与 图 4-79 中 的 几乎 完全 
相同 。 再 次 强调 ， 调 用 do_block 函数 没有 任何 开销 ， 因 为 编译 器 会 采用 内 联 函 
数 调用 
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图 5-49 和 矩阵 规模 从 32 x 32 增加 到 960 x 960 时 四 个 版 本 的 DGEMM 的 性 能 。 最 大 和 矩阵 完 
全 优化 代码 的 性 能 几乎 是 图 3-22 中 未 优化 版 本 的 15 倍 


5.16 ” 雇 误 与 陷阱 

作为 计算 机 体系 结构 中 的 定量 原则 ， 存 储 器 层次 结构 似乎 不 容易 受到 雇 误 和 陷阱 的 影 
响 。 但 实际 上 却 大 相 径 庭 ， 很 多 人 不 仅 已 经 有 了 很 多 的 雇 误 ， 还 遭遇 了 陷阱 ， 而 且 其 中 的 一 
些 还 导致 了 很 多 负面 的 结果 。 下 面 从 学 生 在 练习 和 考试 中 经 常 遇 到 的 陷阱 开始 讲解 。 

陷阱 : 在 写 程序 或 编译 器 生成 代码 时 忽略 存储 系统 的 行为 。 

这 可 以 很 容易 地 写成 一 个 雇 误 :“ 在 写 代码 时 ， 程 序 员 可 以 忽略 存储 器 层次 。” 图 5-19 
中 的 排序 和 5.13 节 的 cache 分 块 技术 证 明了 如 果 程 序 员 在 设计 算法 时 考虑 存储 系统 的 行为 ， 
则 很 容易 将 性 能 翻 倍 。 

陷阱 : 在 模拟 cache 的 时 候 ， 忘 记 说 明 字 节 编 址 或 者 cache 块 大 小 。 

(手动 或 者 通过 计算 机 ) 模拟 cache 的 时 候 ， 我 们 必须 保证 ， 在 确定 一 个 给 定 的 地 址 被 映 
射 到 哪个 cahce 块 中 时 ， 一定 要 说 明 字 节 编 址 和 多 字 块 的 影响 。 例 如 ， 如 果 我 们 有 一 个 容量 
为 32 字 节 的 直接 映射 cache， 块 大 小 为 4 字 节 ， 则 字 节 地 址 36 映射 到 cache 的 块 1， 因 为 字 
节 地 址 36 是 块 地 址 9， 而 9 mod 8 = 1。 男 一 方面 ， 如 果 地 址 36 是 字 地 址 ， 那 么 它 就 会 映射 
到 块 36 mod 8 = 4。 因 此 要 保证 清楚 地 说 明基 准 地 址 。 

同样 ， 我 们 必须 说 明 块 的 大 小 。 假 设 我 们 有 一 个 256 字 节 大 小 的 cache， 块 大 小 为 32 
字 节 ， 那 么 字 节 地 址 300 将 落 入 哪个 块 中 ?如 果 我 们 将 地 址 300 划分 成 字段 ， 就 可 以 看 到 
答案 : 





块 地 址 


字 节 地 址 300 是 块 地 址 


334，“ 沉 云 学 





cache 中 的 块 数 是 


256 
和 | 
块 号 9 对 应 于 cache 块 号 9 mod 8= 1。 

许多 人 ,包括 作者 (在 早期 的 书稿 中 ) 和 那些 忘记 自己 预期 的 地 址 是 字 、 字 节 或 块 号 的 
教师 ， 都 犯 过 这 个 错误 。 当 你 做 练习 时 一 定 要 注意 这 个 易 犯 的 错误 。 

陷阱 : 对 于 共享 cache， 组 相 联 度 少 于 核 的 数量 或 者 共享 该 cache 的 线程 数 。 

如 果 不 特别 注意 ， 一 个 运行 在 2 个 处 理 器 或 者 线程 上 的 并 行程 序 为 数据 结构 分 配 的 地 
址 可 能 映射 到 共享 二 级 cache 的 同一 个 组 中 。 如 果 cache 至 少 是 2" 路 组 相 联 ， 那 么 通过 硬件 
可 以 隐藏 这 些 程序 偶尔 发 生 的 冲突 。 如 果 不 是 ， 程 序 员 可 能 要 面 对 明 显 不 可 思议 的 性 能 缺 
陷 一 一 事实 上 是 由 于 二 级 cache 冲突 缺失 引起 的 一 一 在 程序 迁移 时 发 生 ， 假 定 从 一 个 16 核 的 
机 器 迁移 到 一 个 32 核 的 机 器 上 ， 并 且 如 果 它 们 都 使 用 十 六 路 组 相 联 的 二 级 cache。 

陷阱 : 用 存储 器 平均 访问 时 间 来 评估 乱 序 处 理 器 的 存储 器 层次 结构 。 

如 果 处 理 器 在 cache 缺失 时 阻塞， 那么 你 可 以 分 别 计算 存储 器 阻塞 时 间 和 处 理 器 执行 时 
间 ， 因 此 可 以 使 用 存储 器 平均 访问 时 间 来 独立 地 评估 存储 器 层次 结构 ( 见 5.4 节 )。 

如 果 处 理 器 在 cache 缺失 时 继续 执行 指令 ， 而 且 甚 至 可 能 维持 更 多 的 cache 缺失 ， 那 么 
唯一 可 以 用 来 准确 评估 存储 器 层次 结构 的 办 法 是 模拟 乱 序 处 理 器 和 存储 器 结构 。 

陷阱 : 通过 在 未 分 段 地 址 空间 的 顶部 增加 段 来 扩展 地 址 空间 。 

从 20 世纪 70 年 代 开 始 ， 许 多 程序 都 变 得 很 大 ， 以 至 于 不 是 所 有 的 代码 和 数据 都 能 仅 用 
16 位 地 址 寻 址 。 于 是 ， 计 算 机 修改 为 32 位 地 址 ， 一 种 方法 是 直接 使 用 未 分 段 的 32 位 地 址 空 
间 (也 称 为 平面 地 址 空间 )， 另 一 种 方法 是 给 已 经 存在 的 16 位 地 址 再 增加 16 位 长 度 的 段 。 从 
市 场 观 点 来 看 ， 增 加 程序 员 可 见 的 段 ， 并 且 迫 使 程序 员 和 编译 器 将 程序 划分 成 段 ， 这 样 可 以 
解决 寻 址 问题 。 但 遗憾 的 是 ， 任 何 时 候 ， 一 种 程序 设计 语言 要 求 的 地 址 大 于 一 个 段 的 范围 就 
会 有 麻烦 ， 比 如 说 大 数组 的 索引 、 无 限制 的 指针 或 者 是 引用 和 参数。 此外， 增加 段 可 以 将 每 个 
地 址 变 成 两 个 字 一 一 一 个 是 段 号 ， 另 一 个 是 段 内 偏 移 一 一 这 些 在 使 用 寄存 器 中 的 地 址 时 就 会 
出 现 问题 。 

廖 误 : 实际 的 磁盘 故障 率 和 规格 书 中 声明 的 一 致 。 

最 近 的 两 项 研究 评估 了 大 量 磁盘 ， 目 的 是 检查 实际 结果 和 规格 之 间 的 关系 。 其 中 一 项 
研究 了 将 近 100 000 个 磁盘 ， 它 们 标 称 其 MTTEF 为 1 000 000 一 1 500 000 小 时 或 者 说 具有 
0.6%~0.8% 的 AFR。 他 们 发 现 2%~4% 的 AFR 是 常见 的 ， 通 常 比 设 定 的 故障 率 高 3~5 倍 
[Schroeder and Gibson, 2007]。 男 一 项 研究 了 100 000 个 磁盘 ， 这 些 磁盘 标 称 具有 1.5% 的 
AFR， 但 是 在 第 一 年 中 ， 磁 盘 故 障 率 为 1.7%， 到 第 三 年 ， 磁 盘 的 故障 率 上 升 到 8.6%， 也 就 
是 说 ， 大 约 是 规格 书 中 指定 的 故障 率 的 6 倍 之 多 [Pinheiro, Weber, and Barroso, 2007]。 

雇 误 : 操作 系统 是 调度 磁盘 访问 的 最 好 地 方 。 

正如 5.2 节 中 提 到 的 那样 ， 高 层 磁盘 接口 为 宿主 操作 系统 提供 逻辑 块 地 址 。 假 设 在 这 样 
的 高 层 抽 象 中 操作 系统 可 以 通过 将 逻辑 块 的 地 址 按照 递增 的 顺序 排序 以 获得 最 好 的 性 能 。 然 
而 ， 由 于 磁盘 知道 逻辑 地 址 被 映射 到 扇 区 、 磁 道上 以 及 磁 面 上 的 实际 物理 地 址 ， 这 样 通过 调 
度 就 可 以 减少 旋转 以 及 寻 道 的 时 间 。 

例如 ， 假 设 以 下 工作 负载 是 4 个 读 操作 [Anderson, 2003]: 
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宿主 操作 系统 可 能 对 4 个 读 操 作 重新 进行 调度 ， 编 排 成 逻辑 块 的 读 操 作 的 顺序 : 
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读 100 16 
读 724 8 
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依赖 于 数据 在 磁盘 中 的 相对 位 置 ， 如 图 5-50 所 示 ， 重 新 编排 LO 顺序 可 能 会 使 情况 变 得 


更 糟 。 磁 盘 调 度 的 读 操作 在 磁盘 的 3/4 旋转 周期 就 全 部 完成 ， 而 操作 系统 调度 的 读 操 作 花 费 
了 3 个 旋转 周期 。 


一 > 宿主 顺序 队列 
一 驱动 顺序 队列 





图 5-50 ”操作 系统 调度 与 磁盘 调度 访问 的 例子 ,标记 为 宿主 顺序 和 驱动 顺序 。 前 者 完成 4 个 


读 操作 需要 3 个 旋转 周期 ， 而 后 者 完成 4 个 读 操作 仅仅 在 3/4 旋转 周期 即 可 完成 
(资料 来 源 : Anderson [2003]) 


陷阱 : 在 不 为 虚拟 化 设计 的 指令 系统 体系 结构 上 实现 虚拟 机 监视 器 。 

在 20 世纪 70 年 代 和 80 年代， 很 多 计算 机 体系 结构 设计 者 并 没有 刻意 保证 所 有 读 写 相 
关 的 硬件 资源 指令 都 是 特权 指令 。 这 种 放任 的 态度 导致 了 VMM 在 这 些 体系 结构 上 存在 问 
题 , 包括 x86， 这 里 我 们 就 以 它 为 例 。 

图 5-51 指出 了 虚拟 化 产生 问题 的 18 条 指令 [Robin and Irvine, 2000]。 其 中 两 大 类 指令 是 : 

e 在 用 户 模 式 下 读 控制 寄存 器 ， 暴 露 了 在 虚拟 机 上 运行 的 客户 操作 系统 (如 前 面 提 到 的 

POPF ) 。 

e 检查 分 段 的 体系 结构 所 需 的 保护 ， 但 却 假 设 操作 系统 在 最 高 的 特权 级 运行 。 

为 了 简化 在 x86 上 实现 VMM，AMD 和 Intel 都 提出 通过 新 的 模式 扩展 体系 结构 。Intel 
的 VTx 为 虚拟 机 运行 提供 了 一 个 新 的 执行 模式 ， 一 个 面向 虚拟 机 状态 的 体系 结构 定义 ， 快 
读 虚 拟 机 切换 指令 ， 以 及 一 大 组 用 来 选择 调 入 VMM 环境 的 参数 。 总 之 ，VT-x 在 x86 中 加 
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了 11 条 新 指令 。AMD 的 Pacifica 做 了 相似 的 改进 。 


存储 全 局 描述 符 表 寄存 器 ( SGDT ) 
存储 局 部 描述 符 表 寄存 器 ( SLDT ) 
存储 中 断 描述 符 表 寄存 器 ( SIDT ) 
存储 机 器 状态 字 ( SMSW ) 

标志 入 栈 ( PUSHF，PUSHFD ) 
标志 出 栈 ( POPF，POPFD ) 


从 段 描述 符 读 取 访 问 权 限 ( LAR ) 

从 段 描述 符 读 取 段 的 边界 ( LSL ) 

如 果 段 描述 符 可 读 ， 进 行 读 校 验 ( VERR ) 

如 果 段 描述 符 可 写 ， 进 行 写 校 验 ( VERW ) 

段 寄存 器 出 栈 (POP CS，POP SS，…) 

段 寄存 器 入 栈 ( PUSH CS，PUSH SS，… ) 

远 调用 不 同 的 特权 级 ( CALL ) 

远 返 回 至 不 同 的 特权 级 ( RET ) 

远 跳 转 至 不 同 的 特权 级 ( JMP ) 

软 中 断 (INT ) 

存储 段 选择 寄存 器 ( STR ) 

移入 /移出 段 寄 存 器 ( MOVE ) 

图 5-51 虚拟 化 产生 问题 的 18 条 x86 指令 的 概述 [Robin and Irvine, 2000]。 上 面 一 组 的 前 5 
条 指令 允许 程序 在 用 户 模式 下 读 控制 寄存 器 ， 而 无 须 内 陷 中 断 ， 例 如 描述 符 表 寄 存 
器 。 标 记 出 栈 指令 会 修改 包含 敏感 信息 的 控制 寄存 器 ， 但 在 用 户 模式 下 将 失效 而 无 
任何 提示 。x86 体系 结构 中 段 的 保护 检查 在 下 面 的 一 组 指令 中 ， 当 读 取 控制 寄存 需 
时 ， 作 为 指令 执行 的 一 部 分 ， 都 会 隐 式 地 检查 特权 级 。 进 行 检 查 时 操作 系统 必须 运 
行 在 最 高 特权 级 ， 但 是 对 客户 虚拟 机 并 没有 这 样 的 要 求 。 只 有 在 移 人 段 寄 存 器 操作 
时 会 试图 修改 控制 状态 ， 但 是 ， 保 护 检查 同样 会 组 织 它 这 么 做 


另 一 种 方法 通过 修改 硬件 来 对 操作 系统 做 细微 的 修改 以 简化 虚拟 化 。 这 种 技术 称 为 泛 虚 
拟 化 ( paravirtualization)， 例 如 开源 的 虚拟 机 监视 器 Xen 就 是 一 个 很 好 的 例子 。Xen 虚拟 机 
监视 器 提供 给 客户 操作 系统 一 个 抽象 虚拟 机 ， 它 仅仅 使 用 了 供 虚 拟 机 监视 器 运行 的 x86 物理 
硬件 中 易于 虚拟 化 的 一 部 分 。 


5.17 本章 小 结 


无 论 在 最 快 的 计算 机 还 是 最 慢 的 计算 机 中 ， 构 成 主 存 的 原材料 一 一 DRAM 本 质 是 相同 
的 ， 并 且 是 最 便宜 的 ， 这 使 得 构建 一 个 和 快速 处 理 器 保持 同步 的 存储 系统 变 得 更 加 困难 。 

局 部 性 原理 可 以 用 来 克服 存储 器 访问 的 长 延迟 ， 这 个 策略 的 正确 性 已 经 在 竹 锚 器 层次 结 
欧 的 各 级 都 得 到 了 证 明 。 尽 管 层次 结构 中 的 各 级 从 量 的 角度 来 看 非常 不 同 ,但 是 在 它们 的 执 
行 过 程 中 都 遵循 相似 的 策略 ， 并 且 利 用 相同 的 局 部 性 原理 。 

多 级 cache 可 以 更 方便 地 使 用 更 多 的 优化 ， 这 有 两 个 原因 。 第 一 ， 较 低级 cache 的 设计 
参数 与 一 级 cahce 不 同 。 例 如 ， 由 于 较 低级 cache 的 容量 一 般 很 大 ， 因 此 可 能 使 用 更 大 容量 
的 块 。 第 二 ， 较 低级 cache 并 不 像 一 级 cache 那样 经 常 被 处 理 器 用 到 。 这 让 我 们 考虑 当 较 低 
级 cache 空闲 时 让 它 做 一 些 事情 以 预防 将 来 的 缺失 。 

另 一 个 趋势 是 寻求 软件 的 帮助 。 使 用 大 量 的 程序 转换 和 硬件 设备 有 效 地 管理 存储 器 层次 
结构 是 增强 编译 器 作用 的 主要 焦点 。 现 在 有 两 种 不 同 的 观点 。 一 种 是 重新 组 织 程序 结构 以 增 
强 它 的 空间 和 时 间 局 部 性 。 这 种 方法 主要 针对 以 大 数组 为 主要 数据 结构 的 面向 循环 的 程序 ， 























当 运 行 在 用 户 模式 时 ， 访 问 敏感 
寄存 器 无 内 陷 中 断 






















在 用 户 模式 下 访问 虚拟 存储 机 制 
时 ，x86 保 护 检查 指令 失效 
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大 规模 的 线性 代数 问题 就 是 一 个 典型 的 例子 ,例如 DGEMM。 通 过 ”| 预 取 : 使 用 特殊 指令 将 未 

重新 组 织 访问 数组 的 循环 增强 了 局 部 性 ， 也 因此 改进 了 cache 性 能 。 ne 
还 有 一 种 方法 是 预 取 ( prefetching)。 在 预 取 机 制 中 ， 一 个 数据 | Se ee 下 

块 在 真正 被 访问 之 前 就 被 预 取 入 cache 中 了 。 许 多 微 处 理 器 使 用 硬 

件 预 取 尝 试 甘 测 访问 ， 这 对 软件 可 能 比较 困难 。 

第 三 种 方法 是 使 用 优化 存储 器 传输 的 特殊 cache 感知 (cache-aware) 指令 。 例 如 ， 在 
6.10 节 中 ， 微 处 理 器 使 用 了 一 种 优化 设计 : 当 发 生 写 缺 失 时 ， 由 于 程序 要 写成 整个 块 ， 因 而 
并 不 从 主 存 中 取 回 一 个 块 。 对 于 一 个 内 核 来 说 ， 这 种 优化 明显 减少 了 存储 器 的 传输 。 

我 们 将 在 第 6 章 中 看 到 ， 对 并 行 处 理 器 来 说 ， 存 储 系统 也 是 一 个 重要 的 设计 问题 。 存 储 
器 层次 结构 决定 了 系统 性 能 的 重要 性 在 不 断 增 长 ， 这 也 意味 着 在 未 来 的 几 年 内 ， 这 一 领域 对 
设计 者 和 研究 者 来 说 将 成 为 焦点 。 


昌 5.18 ”历史 视角 和 拓展 阅读 


本 节 为 网 络 章节 ， 描 述 了 存储 器 技术 的 概况 ， 从 冬 延 迟 线 到 DRAM， 存 储 器 层次 结 
构 的 发 明 ， 保护 机 制 以 及 虚拟 机 ， 最 后 以 操作 系统 的 简单 发 展 历史 作 总 结 ， 包 括 CTSS、 
MULTICS、 UNIX、 BSD UNIX、 MS-DOS、Windows 和 Linux。 


5.19 练习 


在 接 下 来 的 习题 中 ， 我 们 假设 存储 器 为 字 节 寻 址 ， 字 的 大 小 为 64 位， 如 有 变化 会 特别 说 明 。 
5.1 本题 研 究 和 矩阵 计算 的 内 存 局 部 性 特性 。 以 下 代码 使 用 C 编写 ， 其 中 同一 行 中 的 元 素 是 连续 存储 

的 。 假 设 每 个 字 是 64 位 整数 。 

far” (l=0; TIX8;: TH 


for (J=0; J<8000; J++) 
A[I][J]j=BLI][0]+ALJ]LIJ] ; 


5.1.1 [5] <5.1> 在 一 个 16 字 节 的 cache 块 中 可 以 存放 多 少 个 64 位 整数 ? 
5.1.2 [5] <5.1> 对 哪个 变量 的 访问 显示 了 时 间 局 部 性 ? 
5.1.3 [5] <5.1 > 对 哪个 变量 的 访问 显示 了 空间 局 部 性 ? 


局 部 性 受 引 用 顺序 和 数据 分 布 的 影响 。 相 同 的 计算 也 可 以 使 用 Matlab 写 出 ， 与 C 的 不 同 是 在 
Matlab 中 相同 列 中 的 矩阵 元 素 在 存储 器 中 的 存储 是 连续 的 。 
for I=1:8 
for J=1:8000 
A(I,J)=B(I,0)+A(J, 1); 


end 
end 


5.1.4 [5] <5.1 > 对 哪个 变量 的 访问 显示 了 时 间 局 部 性 ? 
5.1.5 [5] <5.1> 对 哪个 变量 的 访问 显示 了 空间 局 部 性 ? 
5.1.6 [15 ] < 5.1 > 需要 多 少 个 16 字 节 cache 块 来 存储 使 用 Matlab 矩阵 存储 的 所 有 将 被 访问 的 64 位 
和 矩阵 元 素 ?” 如 果 是 使 用 C 的 矩阵 存储 呢 ? (假设 每 行 包含 多 个 元 素 。) 
5.2 cache 对 于 为 处 理 器 提供 高 性 能 存储 器 层次 结构 非常 重要 。 下 面 是 64 位 存储 器 地 址 访问 顺序 列 
表 ， 以 字 地 址 的 形式 给 出 。 


0x03, OXxb4, OX25, OQx02, OQxbf, OxX58, Oxbe, Ox0e, OXb5., 
0x2c, 0xba, OxFfd 
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迪 5 章 





[ 10 ] < 5.3 > 对 于 一 个 有 16 个 cache 块 、 每 个 块 大 小 为 1 个 字 的 cache， 标 识 这 些 引 用 的 二 进 制 
字 地 址 、 标 签 和 索引 。 此 外 ， 假 设 cache 最 初 为 空 ， 列 出 每 个 地 址 的 访问 会 命中 还 是 失效 。 
[10] < 5.3 > 对 于 一 个 有 8 个 cache 块 、 每 个 块 大 小 为 2 个 字 的 cache， 标 识 这 些 引用 的 二 进 制 
字 地 址 、 标 签 、 索 引 和 偏 移 。 此 外 ， 假 设 cache 最 初 为 空 ， 列 出 每 个 地 址 的 访问 会 命中 还 是 
失效 。 

[ 20 ] < 5.3, 5.4 > 请 针对 给 定 的 访问 顺序 优化 cache 设计 。 这 里 有 三 种 直接 映射 cache 的 设计 方 
案 ， 每 种 方案 都 可 以 容纳 8 个 字 的 数据 : 

es C1 的 氛 大 本 为 工作 学 

e C2 的 块 大 小 为 2 个 字 

e C3 的 块 大 小 为 4 个 字 

按照 惯例 , cache 以 它 包 含 的 数据 量 来 进行 命名 (例如 ,4KiB cache 可 以 容纳 4KiB 的 数据 )， 但 
是 cache 还 需要 SRAM 来 存储 元 数据 ， 如 标签 和 有 效 位 等 。 本 题 研 究 cache 的 配置 如 何 影响 
实现 它 所 需 的 SRAM 总 量 以 及 cache 的 性 能 。 对 所 有 的 部 分 ， 都 假设 cache 是 字 节 可 寻 址 的 ， 
并 且 地 址 和 字 都 是 64 位 的 。 

[ 10 ] < 5.3 > 计算 实现 每 个 块 大 小 为 2 个 字 的 32KiB cache 所 需 的 总 位 数 。 

[ 10 ] < 5.3 > 计算 实现 每 个 块 大 小 为 16 个 字 的 64KiB cache 所 需 的 总 位 数 。 这 个 cache 比 5.3.1 
中 描述 的 32KiB cache 大 多 少 ? (请 注意 ， 通 过 更 改 块 大 小 ,我 们 将 数据 量 增 加 了 一 倍 ， 但 并 
不 是 将 cache 的 总 大 小 加 倍 。) 

[5] <5.3> 解释 为 什么 5.3.2 中 的 64KiB cache 尽管 数据 量 比较 大 ， 但 是 可 能 会 提供 比 5.3.1 中 
的 cache 更 慢 的 性 能 。 

[10 ] < 5$.3, 5.4> 生成 一 系列 读 请 求 ， 这 些 请 求 需要 在 32KiB 的 两 路 组 相 联 cache 上 的 失效 率 低 
于 在 5.3.1 中 描述 的 cache 的 失效 率 。 

[15] <5.3> 在 5.3 节 中 显示 了 索引 直接 映射 cache 的 典型 方法 :( 块 地 址 ) mod ( cache 中 的 块 
数 )。 假 设 cache 地 址 为 64 位 ， 有 1024 个 块 ， 考虑 一 个 不 同 的 索引 函数 :( 块 地 址 [63:54] 
XOR 块 地 址 [53:44])。 是 否 可 以 使 用 这 个 索引 函数 来 索引 直接 映射 cache ? 如 果 可 以 ， 请 解 
释 原 因 并 讨论 可 能 需要 对 cache 进行 的 任何 更 改 。 如 果 不 可 以 ， 请 解释 原因 。 

对 一 个 64 位 地 址 的 直接 映射 cache 的 设计 ， 地 址 的 以 下 位 用 于 访问 cache。 


63~10 | 9~5 | 4~0 

















[ 5 ] <5.3 >cache 块 大 小 为 多 少 (以 字 为 单位 )? 

[5] <5.3 >cache 块 有 多 少 个 ? 

[5] < 5.3 > 这 种 cache 实现 所 需 的 总 位 数 与 数据 存储 位 之 间 的 比率 是 多 少 ? 
下 表 记 录 了 从 上 电 开 始 cache 访问 的 字 节 地 址 。 


地 址 











十 六 进 制 | 00 | 04 | 10 | 84 | Es]|Ao | 400 | 1 | 8c [cic| B4 | 884 
十 进 制 0 4 | 16 | 132 | 232 | 160 | 1024| 30 | 140 | 3100| 180 | 2180 


























[ 20 ] < 5.3 > 对 每 一 次 访问 ， 列 出 : 它 的 标签 、 索 引 和 偏 移 ; 指出 命中 还 是 失效 ; 替换 了 哪个 字 
节 (如 果 有 的 话 )。 

[5] <5.3> 命 中 率 是 多 少 ? 

[5 ] <5.3> 列 出 cache 的 最 终 状态 ， 每 个 有 效 表 项 表示 为 < 索引 ， 标签， 数据 > 的 记录 。 例 如 : 
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<0, 3, Mem[LOxC00]-Mem[ OxC1lF]> 


回想 一 下 ,我们 有 两 种 写 策略 和 两 种 写 分 配 策略 ， 它 们 的 组 合 可 以 在 Ll 和 L2 cahce 中 实现 。 
假设 Ll 和 L2 cache 有 以 下 选择 : 


写 直达 ， 写 不 分 配 | 写 返回 ， 写 分 配 
[5 ] <5.3, 5.8> 在 不 同 级 别 的 存储 器 层次 结构 之 间 使 用 缓冲 器 以 减少 访问 延迟 。 对 于 这 个 给 定 
的 配置 ， 列 出 Ll 和 L2 cache 之 间 以 及 L2 cahce 和 内 存 之 间 可 能 需要 的 缓冲 器 。 

[20 ] < 5.3, 5.8 > 描述 处 理 LI 写 和 人 失效 的 过 程 ， 考 虑 所 涉及 的 组 件 以 及 更 换 脏 块 的 可 能 性 。 

[ 20 ] < 5.3, 5.8 > 对 于 多 级 独占 cache 配置 (一 个 cache 块 只 能 驻 留 在 L1 或 L2 cache 中 的 一 个 )， 
描述 处 理 LI1 写 入 失效 和 Ll 读 取 失效 的 过 程 ， 考 虑 所 涉及 的 组 件 以 及 更 换 脏 块 的 可 能 性 。 
考虑 以 下 的 程序 和 cache 行为 : 


每 1000 条 指令 的 | 每 1000 条 指令 的 | 指令 cache 数据 cache 块 大 小 
数据 读 次 数 数据 写 次 数 失效 率 失效 率 ( 字 节 ) 
| 64 


0.30% 2% 






































[10] <5.3, 5.8 > 假设 一 个 带 有 写 直 达 、 写 分 配 cache 的 CPU 实现 了 2 的 CPI, 那么 RAM 和 
cache 之 间 的 读 写 带宽 (用 每 个 周期 的 字 节 数 进行 测量 ) 是 多 少 ? (假设 每 个 失效 都 会 生成 一 个 
块 的 请 求 。) 

[ 10 ] < 5.3, 5.8 > 对 于 一 个 写 回 、 写 分 配 cache 来 说 ,假设 替换 出 的 数据 cache 块 中 有 30% 是 脏 
块 ， 那 么 为 了 实现 CPI 为 2， 读 写 带 宽 需 要 达到 多 少 ? 

播放 音频 或 视频 文件 的 媒体 应 用 程序 是 称 为 “ 流 ” 工 作 负载 的 一 类 工作 负载 的 一 部 分 (也 就 是 
说 ， 它 们 带 来 大 量 数据 但 是 不 重用 大 部 分 数据 )。 考 虑 使 用 以 下 字 地 址 流 顺 序 访问 512KiB 工 
作 集 的 视频 流 工 作 负载 : 

i 0 


[10] < 5.4, 5.8 > 假设 有 一 个 块 大 小 为 32 字 节 的 64KiB 直接 映射 cache， 那 么 上 述 地 址 流 的 失 
效率 是 多 少 ? cache 或 工作 集 的 大 小 变化 时 ，cache 失效 率 如 何 变化 ”基于 3C 模型 ， 如 何 对 
这 个 工作 负载 所 经 历 的 这 些 失效 进行 分 类 ? 

[5 ] < 5.1, 5.8 > 当 cache 块 大 小 为 16 字 节 、64 字 节 和 128 字 节 时 ， 重 新 计算 失效 率 。 这 个 工作 
负载 利用 了 什么 类 型 的 局 部 性 ? 

[10 ] < 5.13 >“ 预 取 ” 是 一 种 利用 可 预测 的 地 址 模式 在 访问 特定 cache 块 时 推测 性 地 取 回 额外 
cache 块 的 技术 。 预 取 的 一 个 示例 是 流 缓冲 区 ， 当 取 回 特定 的 cache 块 时 ， 它 将 相 邻 的 cache 
块 顺 序 预 取 到 单独 的 缓冲 区 中 。 如 果 在 预 取 缓冲 区 中 找到 数据 ， 则 将 其 视 为 命中 ,移入 cache 
中 ， 同 时 预 取 下 一 个 cache 块 。 假 设 流 缓冲 区 有 2 个 表 项 ， 并 且 假 设 cache 延迟 满足 可 以 在 完 
成 对 先前 cache 块 的 计算 之 前 加 载 cache 块 ， 那 么 上 述 地 址 流 的 失效 率 是 多 少 ? 

cache 块 大 小 (B) 可 以 影响 失效 率 和 失效 延迟 。 假 设 一 台 机 器 的 基本 CPI 为 1， 每 条 指令 的 平均 
访问 次 数 (包括 指令 和 数据 ) 为 1.35， 给 定 以 下 各 种 不 同 cache 块 大 小 的 失效 率 ， 找 到 能 够 最 
小 化 总 失效 延迟 的 cache 块 大 小 。 











8: 4% 16: 3% 32: 2% 64: 1.5% 128: 1% 

















[ 10] <5.3 > 失效 延迟 为 20 x B 周期 时 ， 最 优 块 大 小 是 多 少 ? 
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[10]<5.3 > 失效 延迟 为 24+B 周期 时 ， 最 优 块 大 小 是 多 少 ? 
[ 10 ] < 5.3 > 失效 延迟 为 定 值 时 ， 最 优 块 大 小 是 多 少 ? 
本 题 研究 不 同 cache 容量 对 整体 性 能 的 影响 。 通 常 ,cache 访问 时 间 与 cache 容量 成 正比 。 假 设 
主 存 访问 需要 70ns， 并 且 在 所 有 指令 中 有 36% 的 指令 访问 数据 内 存 。 下 表 显 示 了 两 个 处 理 器 
P1 和 了 P2 中 每 个 处 理 器 各 自 的 L1 cache 的 数据 。 
| | L1 大 小 | L1 失 效率 | L1 命 中 时 间 | 

P1 | 2KiB | 8.0% 0.66ns 
P2 | 4KiB | 6.0% 0.90ns 
[5] <5.4> 假 设 L1 命中 时 间 决 定 Pl 和 了 2 的 时 钟 周期 时 间 ， 它 们 各 自 的 时 钟 频率 是 多 少 ? 
[10] <5.4>P1 和 P2 各 自 的 AMAT (平均 内 存 访问 时 间 ) 是 多 少 (以 周期 为 单位 ) ? 
[5 ] < 5.4> 假设 基本 CPI 为 1.0 而 且 没有 任何 内 存 停顿 ,那么 P1 和 P2 的 总 CPI 是 多 少 ? 哪个 
处 理 器 更 快 ? ( 当 我 们 说 “基本 CPI 为 1.0” 时 ， 意 思 是 指令 在 一 个 周期 内 完成 ， 除 非 指令 访 
问 或 者 数据 访问 导致 cache 失效 。) 

对 于 接 下 来 的 三 个 问题 ， 我 们 将 考虑 向 P1 添加 L2 cache (可 能 弥补 其 有 限 的 L1 cache 容 
量 )。 解 决 这 些 问题 时 ， 请 使 用 上 一 个 表 中 的 L1 cache 容量 和 命中 时 间 。L2 失效 率 表示 的 是 
其 局 部 失效 率 。 

















1MiB | 95% | 5.62ns 
[10] <5.4> 添 加 L2 cache 的 P1 的 AMAT 是 多 少 ? 在 使 用 L2 cache 后 ,AMAT 变 得 更 好 还 是 
更 差 ? 

[5 ] < 5.4> 假设 基本 CPI 为 1.0 而 且 没 有 任何 内 存 停顿 ， 那 么 添加 L2 cache 的 P1 的 总 CPI 是 
多 少 ? 

[10] <5.4> 为 了 使 具有 L2 cache 的 P1 比 没有 L2 cache 的 P1 更 快 ， 需 要 L2 的 失效 率 为 多 少 ? 
[ 15 ] < 5.4> 为 了 使 具有 L2 cache 的 Pl 比 没有 L2 cache 的 P2 更 快 ， 需 要 L2 的 失效 率 为 多 少 ? 
本 题 研究 不 同 cache 设计 的 效果 ， 特 别 是 将 组 相 联 cache 与 5.4 节 中 的 直接 映射 cache 进行 比较 。 
有 关 这 些 练习 ， 请 参阅 下 面 显 示 的 字 地 址 序列 : 

0x03, Oxb4, Ox2b, 0x02, Oxbe, Ox58, Oxbf, Ox0e, Oxl1f, 

0xb5, Oxbf, Oxba, Ox2e, Oxce 

[ 10 ] < 5.4> 绘制 块 大 小 为 2 字 、 总 容量 为 48 字 的 三 路 组 相 联 cache 的 组 织 结构 图 。 图 中 应 有 
类 似 于 图 5-18 的 样式 ， 还 应 该 清楚 地 显示 标签 和 数据 字段 的 宽度 。 

[ 10 ] <5.4> 从 5.11.1 中 记录 cache 的 行为 。 假 设 cache 使 用 LRU 替换 策略 。 对 于 每 一 次 cache 
访问 ， 确 定 : 

。 二 进 制 字 地 址 。 

。 标签 。 

e 索引 。 

e 偏 移 。 

。 访问 会 命中 还 是 失效 。 

e 在 处 理 访问 后 ，cache 每 一 路 中 有 哪些 标签 。 

[5 ] < 5.4 > 绘制 块 大 小 为 1 字 、 总 容量 为 8 字 的 全 相 联 cache 的 组 织 结构 图 。 图 中 应 有 类 似 于 
图 5-18 的 样式 ， 还 应 该 清楚 地 显示 标签 和 数据 字段 的 宽度 。 
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[10 ] <5.4> 从 5.11.3 中 记录 cache 的 行为 。 假 设 cache 使 用 LRU 替换 策略 。 对 于 每 一 次 cache 
访问 ， 确 定 : 

e 二 进 制 字 地 址 。 

e 标签 。 

。 索引 

e 偏 移 

e 访问 会 命中 还 是 失效 。 

e 在 处 理 访 问 后 ，cache 中 的 内 容 。 

[5 ] < 5.4> 绘 制 块 大 小 为 2 字 、 总 容量 为 8 字 的 全 相 联 cache 的 组 织 结 构图 。 图 中 应 有 类 似 于 
图 5-18 的 样式 ， 还 应 该 清楚 地 显示 标签 和 数据 字段 的 宽度 。 

[10] <5.4> 从 5.11.5 中 记录 cache 的 行为 。 假 设 cache 使 用 LRU 替换 策略 。 对 于 每 一 次 cache 
访问 ， 确 定 : 

e 二 进 制 字 地 址 

e 标签 。 

e 索引 。 

e 偏 移 。 

e 访问 会 命中 还 是 失效 。 

在 处 理 访问 后 ，cache 中 的 内 容 。 

[ 10 ] <5.4> 将 替换 策略 改 为 MRU (最 多 最 常 使 用 ) 策略 ， 再 次 完成 5.11.6。 

[15 ] <5.4> 将 蔡 换 策略 改 为 最 优 蔡 换 策 略 〈 造 成 最 低 失效 率 的 替换 策略 )， 再 次 完成 5.11.6。 
多 级 cache 是 一 种 重要 的 技术 ， 可 以 在 克服 一 级 cache 提供 的 有 限 空间 的 同时 仍然 保持 速度 。 考 
虑 具有 以 下 参数 的 处 理 器 : 











本 每 条 指令 的 垃 gh84 |L2 直接 映射 | L2 八路 组 | L2 八路 组 
rsd 处 理 器 速度 eM Li cache Ee cache 相 联 cache | 相 联 cache 
失效 率 * ”| 全 局 失效 率 | 。 加 度 “| 全 局 失效 率 

1.5 














2GHz 100ns 7% 12 cycles | 3:5% 28 cycles 1.5% 











*L] cache 失效 率 是 针对 每 条 指令 而 言 的 。 假 设 L1 cache 的 总 失效 数量 (包括 指令 和 数据 ) 为 总 指令 数 的 7%。 
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[10] <5.4> 使 用 以 下 方法 计算 表 中 处理 器 的 CPI: 仅 有 L1 cache; 使 用 L2 直接 映射 cache; 使 
用 L2 八路 组 相 联 cache。 如 果 主 存 访 问 时 间 加 倍 ， 这 些 数据 会 如 何 变化 ? (将 每 个 更 改作 为 绝 
对 CPI 和 百分比 更 改 。) 请 注意 L2 cache 可 以 隐藏 慢 速 内 存 影响 的 程度 。 

[10] <5.4> 可 能 有 比 两 级 更 多 的 cache 层次 结构 吗 ? 已 知 上 述 处 理 器 具有 L2 直接 映射 cache， 
设计 人 员 和 希望 添加 一 个 L3 cache， 访 问 时 间 为 50 个 时 钟 周 期 ， 并 且 该 cache 将 具有 13% 的 失 
效率 。 这 会 提供 更 好 的 性 能 吗 ? 一 般 来 说 ， 添 加 L3 cache 有 哪些 优 缺 点 ? 

[ 20 ] <5.4> 在 较 老 的 处 理 器 中 ， Intel Pentium 或 Alpha 21264，L2 cache 在 主 处 理 器 和 
L1 cache 的 外 部 (位 于 不 同 芯片 上 )。 这 种 做 法 使 得 大 型 L2 cache 成 为 可 能 ， 但 是 访问 
cache 的 延迟 也 变 得 很 高 ， 并 且 因 为 L2 cache 以 较 低 的 频率 运行 ， 所 以 带宽 通常 也 很 低 。 假 
设 512KiB 的 片 外 LL2 cache 的 失效 率 为 4%， 如 果 每 增加 一 个 额外 的 512KiB cache 能 够 降低 
0.7% 的 失效 率 ， 并 且 cache 的 总 访问 时 间 为 50 个 时 钟 周期 ， 那 么 cache 容量 必须 多 大 才能 与 
上 面 列 出 的 L2 直接 映射 cache 的 性 能 相 匹配 ? 

平均 故障 间隔 时 间 (MTBF)、 平 均 替 换 时 间 (MTTR) 和 平均 故障 时 间 (MTTF) 是 评估 存储 资 
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源 可 靠 性 和 可 用 性 的 有 用 指标 。 通 过 回答 有 关 具 有 以 下 指标 的 设备 的 问题 来 探索 这 些 概念 : 
MTTR 
| 和 年 1 天 

[5 ] <5.5 > 计算 这 个 设备 的 MTBF。 

[5]<5.5> 计算 这 个 设备 的 可 用 性 。 

[5]<5.5> 当 MTTR 接近 0 时 , 设备 的 可 用 性 会 发 生 什么 变化 ”这 是 合理 的 情况 吗 ? 

[5] <5.5> 当 MTTR 变 得 非常 高 (例如 设备 很 难 进行 维修 ) 时 ,设备 的 可 用 性 会 发 生 什么 变 


化 ? 这 是 否 意味 着 设备 的 可 用 性 很 低 呢 ? 

本 题 检 测 纠正 1 位 错 、 检 测 2 位 错 (SED/DED) 的 汉 明 码 。 

[5] <5.5> 使 用 SEC/DED 编码 保护 128 位 字 所 需 的 最 小 奇偶 校 验 位 数 是 多 少 ? 

[5 ] < 5.5 >5.5 节 中 规定 ， 现 代 服 务 器 内 存 模块 (DIMM) 采用 SEC/DED ECC 来 保护 每 个 64 
位 ， 具 有 8 个 奇偶 校 验 位 。 计 算 此 编码 与 5.14.1 中 编码 的 成 本 /性 能 比 。 在 这 里 成 本 是 所 需 
的 相对 奇偶 校 验 位 数 ， 而 性 能 是 可 以 纠正 的 相对 错误 数 。 哪 种 编码 更 好 ? 

[5] <5.5> 考虑 使 用 4 个 奇偶 校 验 位 保护 8 位 字 的 SEC 编码 。 如 果 我 们 读 取 的 值 为 0x375， 是 
和 否 有 错误 ?如 果 有 ， 请 更 正 错误 。 

对 于 高 性 能 系统 (例如 B 树 索引 数据 库 )， 页 大 小 主要 取决 于 数据 大 小 和 磁盘 性 能 。 假 设 一 个 具 
有 固定 大 小 的 表 项 的 B 树 索 引 页 已 使 用 了 70%。 已 使 用 的 页 是 其 B 树 深度 ， 用 log; ( 表 项 数 ) 
来 计算 。 下 表 显 示 对 于 一 个 10 年 前 的 磁盘 ， 有 16 字 节 表 项 、10ms 延迟 和 10MB/s 传输 速率 ， 


其 最 佳 页 大 小 为 16K。 
索引 页 访问 成 本 ， 
(ms) 使 用 /成 本 


页 的 使 用 /B 树 深度 
( 保存 的 磁盘 访问 次 数 ) 


页 大 小 ( KiB ) 
































2 6.49 或 (log, ( 2048/16x0.7 ) ) 10.2 0.64 
4 7.49 10.4 0.72 
8 8.49 10.8 O79 
16 9.49 11.6 0.82 
32 10.49 13.2 OQ.79 
64 11.49 16.4 0.70 
128 12.49 22.8 0.55 
256 13.49 35.6 0.38 

















[ 10 ] < 5.7 > 如 果 表 项 变 为 128 字 节 ， 那 么 最 佳 页 大 小 是 多 少 ? 

[10] < 5.7> 基 于 5.15.1， 如 果 页 使 用 50%， 最 佳 页 大 小 是 多 少 ? 

[20 ] <5.7> 基于 5.15.2， 如 果 使 用 3ms 延迟 和 100MB/s 传输 速率 的 现代 磁盘 ， 最 佳 页 大 小 是 
多 少 ? 请 解释 为 什么 未 来 的 服务 器 可 能 拥有 更 大 的 页 。 

在 DRAM 中 保留 “常用 ”( 或 “ 热 ”) 页 可 以 节省 磁盘 访问 , 但 是 如 何 确定 给 定 系统 中 “常用 ” 
的 确切 含义 ? 数据 工程 师 使 用 DRAM 和 磁盘 访问 之 间 的 成 本 比 来 量化 “ 热 ” 页 的 重用 时 间 阐 
值 。 磁 盘 访 问 的 成 本 是 $ Disk/accessses_per_sec， 而 在 DRAM 中 保留 页 的 成 本 是 $ DRAM 
MiB/page_size。 下 面 列 出 了 几 个 时 间 点 的 典型 DRAM 和 磁盘 成 本 以 及 典型 的 数据 库 页 大 小 : 











( S$MiB ) ( KiB ) ( $/disk ) { 访问 /s ) 
1987 5000 15 000 
1997 15 | 2000 | 64 
2007 0.05 六 | 80 | 83 
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[ 20 ] < 5.7 > 为 保持 使 用 相同 的 页 大 小 (从 而 避免 软件 重 写 )， 还 可 以 更 改 哪 些 其 他 因素 ?根据 
当前 的 技术 和 成 本 趋势 讨论 它们 的 可 能 性 。 

如 5.7 节 所 述 ， 虚 拟 内 存 使 用 页 表 来 跟踪 虚拟 地 址 到 物理 地 址 的 上 映射。 本题 显示 了 在 访问 地 址 
时 必须 如 何 更 新 页 表 。 以 下 数据 构成 了 在 系统 上 看 到 的 虚拟 字 节 地 址 流 。 假 设 有 4KiB 页 ， 
一 个 4 表 项 全 相 联 的 TLB ， 使 用 严格 的 LRU 替换 策略 。 如 果 必 须 从 磁盘 中 取 回 页 ， 请 增加 下 
一 次 能 取 的 最 大 页 码 : 





十 进 制 [4669 T12227 [13916 [34587 |48870 [12608 |49225 
十 六 进 制 |0x123d|0x08b3|10x365c|0x871b|0xbee6|0x3140|0xc049 





















































TLB 
上 次 访问 时 间 间 遇 
1 -| 0 12 4 
| Ox7 4 a 
4 | 0 | 天 3 
0 | ox4 9 7 
页 表 


物理 页 号 /在 磁盘 中 
生 5 

在 磁盘 中 
在 磁盘 中 


























NIOIOIPIWINIPIO 





/ 


FioeolelFlielFPiIPIFPRIDID 
人 




















SY 





[10] <5.7> 对 于 上 述 每 一 次 访问 ， 列 出 : 

e 本 次 访问 在 TLB 会 命中 还 是 失效 。 

e 本 次 访问 在 页 表 中 会 命中 还 是 失效 。 

e 本 次 访问 是 否 会 造成 缺 页 错误 。 

。 TLB 的 更 新 状态 。 

[15] < 5.7> 重 复 5.16.1， 但 这 次 使 用 16KiB 页 而 不 是 4KiB 页 。 拥 有 更 大 页 大 小 的 优势 是 什 
么 ? 有 什么 缺点 ? 

[15] <5.7> 重复 5.16.1, 但 这 次 使 用 4KiB 页 和 一 个 两 路 组 相 联 TLB。 

[15] <5.7> 重复 5.16.1, 但 这 次 使 用 4KiB 页 和 一 个 直接 映射 TLB。 

[ 10 ] <5.4, 5.7 > 讨论 为 什么 CPU 必须 使 用 TLB 才能 实现 高 性 能 。 如 果 没 有 TLB ， 如 何 处 理 虚 
拟 内 存 访问 ? 

有 几 个 参数 会 影响 页 表 的 整体 大 小 。 下 面 列 出 的 是 关键 的 页 表 参 数 : 


虚拟 地 址 大 小 页 表 项 大 小 


32 位 | 8KiB 4 字 节 
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[5 ] < 5.7> 给 定 上 述 参数 ， 计 算 运 行 5 个 进程 的 系统 的 最 大 可 能 页 表 大 小 。 

[10 ] < $.7> 给 定 上 述 参数 ， 计 算 运 行 5 个 应 用 程序 的 系统 的 页 表 总 大 小 ， 每 个 应 用 程序 使 用 一 
半 可 用 虚拟 内 存 ， 给 定 一 个 在 第 一 级 最 多 有 256 个 表 项 的 二 级 页 表 。 假 设 主页 表 的 每 个 项 是 
6 个 字 节 。 计 算 此 页 表 所 需 的 最 小 和 最 大 内 存 容 量 。 

[ 10 ] < 5.7 >cache 设计 者 希望 增加 4KiB 的 虚拟 索引 、 物 理 标 签 的 cache 容量 。 给 定 上 述 页 大 
小 ， 是 否 可 以 制作 一 个 16KiB 的 直接 映射 cache， 假 设 每 个 块 大 小 为 2 个 64 位 字 ? 设计 者 如 
何 增加 cache 的 数据 大 小 ? 

本 题 研 究 页 表 的 空间 / 时间 优 化 。 下 表 提 供 虚拟 内 存 系统 的 参数 : 


虚拟 地 址 ( 位 ) PTE 大 小 ( 字 节 ) 
| 43 4 


16GiB | 4KiB | 

















[ 10 ] < 5.7 > 对 于 单 级 页 表 ， 需 要 多 少 页 表 项 (PTE) ? 存储 页 表 需 要 多 少 物理 内 存 ? 

[ 10 ] < 5.7> 使 用 多 级 页 表 可 以 通过 仅 将 活动 PTE 保留 在 物理 内 存 中 来 减少 页 表 的 物理 内 存 消 
耗 。 如 果 人 允许 段 表 (上层 页 表 ) 具有 无 限 大 小 ,那么 将 需要 多 少 级 的 页 表 ? 如 果 TLB 失效 ， 
地 址 转换 需要 多 少 次 内 存 访 问 ? 

[ 10 ] < 5.7 > 如 果 段 被 限制 为 4KiB 页 大 小 (以 便 可 以 对 它们 进行 分 页 )。4 个 字 节 是 否 足以 容纳 
所 有 页 表 项 (包括 段 表 中 的 那些 表 项 ) ? 

[10 ] < 5.7 > 如 果 段 被 限制 为 4KiB 页 大 小 ， 则 需要 多 少 级 的 页 表 ? 

[15 ] <5.7> 倒 置 页 表 可 以 进一步 优化 空间 和 时 间 。 存 储 页 表 需 要 多 少 个 PTE? 假设 采用 哈 希 
表 实 现 ，TLB 失效 时 ， 所 需 的 常见 情况 和 最 坏 情况 下 的 内 存 访问 次 数 分 别 是 多 少 ? 

下 表 是 4 表 项 TLB 的 内 容 : 




















下 1 | i406 1 RW | 30 
2 0 40 0 | RX 34 
3 下 | 200 | 32 
4 1 280 0 | RW 31 











[5] <5.7> 在 什么 情况 下 ,第 3 项 的 有 效 位 将 被 置 为 0? 

[5] <5.7> 当 指令 写 人 虚拟 页 号 30 时 会 发 生 什么 ?什么 时 候 软 件 管理 的 TLB 比 硬件 管理 的 
TLB 更 快 ? 

[5] <5.7> 当 指 令 写 人 虚拟 页 号 200 时 会 发 生 什么 ? 

本 题 研 究 替 换 策略 如 何 影响 失效 率 。 假 设 一 个 具有 4 个 块 大 小 为 1 的 cache 块 的 两 路 组 相 联 
cache, 考虑 以 下 字 地 址 序列 ; 0, 1 下 3 234: 5 6 7 0, 1L, 2 3 1 5 6, 7; 0s 
考虑 以 下 地 址 序列 : 0, 2, 4, 8, 10, 12, 14, 16, 0。 

[5 ] < 5.4, 5.8 > 假设 使 用 LRU 替换 策略 ， 这 些 访问 中 哪些 会 命中 ? 

[5] <5.4, 5.8 > 假设 使 用 MRU (最 近 最 多 使 用 ) 替换 策略 ， 这 些 访 问 中 哪些 会 命中 ? 

[5 ] < 5.4, 5.8 > 通过 抛 硬币 来 模拟 随机 替换 策略 。 例 如 ，'“ 正 面 ' 表示 替换 一 路 中 的 第 1 个 块 ， 
“反面 ”表示 替换 一 路 中 的 第 2 个 块 。 这 些 访问 中 哪些 会 命中 ? 

[ 10 ] < 5.4, 5.8 > 描述 这 个 访问 序列 的 最 佳 替换 策略 。 在 最 佳 蔡 换 策略 下 哪些 访问 会 命中 ? 

[ 10 ] < 5.4, 5.8 > 描述 为 什么 难以 实现 对 所 有 地 址 访问 序列 都 为 最 佳 的 蔡 换 策 略 。 

[ 10 ] < 5.4, 5.8 > 假设 你 可 以 根据 每 个 内 存 访问 来 决定 是 否 要 使 用 cache 缓存 所 请 求 的 地 址 ， 这 
对 失效 率 会 有 什么 影响 ? 
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5.21 


S21:] 


S.21.2 


S.24.1 


S.24.2 


S.24.3 
$5.25 


5.25.1 


5.25.2 
5.25.3 


广泛 使 用 虚拟 机 的 最 大 障碍 之 一 是 运行 虚拟 机 所 带 来 的 性 能 开销 。 下 表 列 出 了 各 种 性 能 参数 和 
应 用 程序 行为 : 


每 10000 条 站 昌 疝 坦 I/O 访 问 时 间 
基本 CRI | 可 令 的 特权 | eol | OO | TO 这 | (包括 十 次 用 户 
O/S 访 问 次 数 | “” | . O/S 的 时 间 ) 











1.5 120 15 个 时 钟 周期 | 175 个 时 钟 周期 30 1100 个 时 钟 周期 


[ 10 ] < 5.6> 假设 没有 对 IO 的 访问 ， 计 算 上 述 系统 的 CPI。 如 果 VMM 的 开销 增加 一 倍 , CPIJ 
是 多 少 ?” 如果 减少 一 半 呢 ? 如 果 虚 拟 机 软件 公司 希望 将 性 能 降低 限制 在 10% 以 内 ， 那 么 捕获 
VMM 的 最 长 代价 应 该 是 多 少 ? 

[ 15 ] < 5.6 >LO 访问 通常 会 对 整体 系统 性 能 产生 很 大 的 影响 。 假 设 一 个 非 虚 拟 化 系统 ， 使 用 上 
述 性 能 特征 计算 机 器 的 CPI。 假 设 一 个 虚拟 化 系统 ， 再 次 计算 CPI。 如 果 系统 有 一 半 的 IO 访 
问 ， 这 些 CPI 会 如 何 变化 ? 

[15 ] < 5.6, 5.7> 对 比 虚拟 内 存 和 虚拟 机 的 概念 。 它 们 各 自 的 目标 是 什么 ? 各 自 的 优点 和 缺点 是 
什么 ? 列 出 一 些 需 要 使 用 虚拟 内 存 的 情况 和 一 些 需 要 使 用 虚拟 机 的 情况 。 

[ 10 ] < 5.6 >5.6 节 中 讨论 了 虚拟 化 ， 其 中 假设 虚拟 化 的 系统 和 底层 硬件 运行 相同 的 ISA。 但 
是 ， 虚 拟 化 的 一 种 可 能 用 途 是 模拟 非 本 机 的 ISA。 一 个 例子 是 QEMU， 它 模拟 各 种 ISA， 如 
MIPS、SPARC 和 PowerPC。 这 种 虚拟 化 会 遇 到 哪些 困难 ? 模拟 系统 是 否 有 可 能 比 其 在 本 地 
ISA 上 运行 得 更 快 ? 

本 题 研究 具有 写 缓冲 区 的 处 理 器 的 cache 控制 器 的 控制 单元 。 使 用 图 5-39 中 的 有 限 状 态 自 动机 
作为 设计 有 限 状 态 自 动机 的 起 点 。 假 设 cache 控制 器 用 于 5.9.3 节 描 述 的 简单 直接 映射 cache 
(图 5-39 )， 但 你 需要 再 添加 一 个 容量 为 1 个 块 的 写 缓 冲 区 。 

回忆 一 下 ， 写 缓冲 区 的 目的 是 作为 临时 存储 器 ， 这 样 处 理 器 就 不 必 等 待 脏 块 失效 的 两 次 内 存 
访问 。 它 不 是 在 取 新 块 之 前 写 回 脏 块 ， 而 是 缓冲 脏 块 并 立即 开始 读 取 新 块 。 然 后 ， 在 处 理 器 
工作 时 再 将 脏 块 写 人 主 存 。 

[10 ] < 5.8, 5.9 > 如 果 处 理 器 在 从 写 缓冲 区 将 块 写 回 主 存 时 发 出 一 个 命中 cache 的 请 求 ， 会 发 生 
什么 ? 

[ 10] < 5.8, 5.9 > 如 果 处 理 器 在 从 写 缓 冲 区 将 块 写 回 主 存 时 发 出 一 个 cache 失效 的 请 求 ， 会 发 生 
什么 ? 

[ 10 ] < 5.8, 5.9> 设计 一 个 有 限 状态 自动 机 以 启用 写 缓冲 区 。 

cache 一 致 性 涉及 给 定 cache 块 上 的 多 个 处 理 器 的 视图 。 以 下 数据 显示 了 两 个 处 理 器 以 及 其 对 
cache 块 X 的 两 个 不 同 字 的 读 / 写 操作 (最 初 X[0]=x[1]=0)。 

XI0T Ft: XI = 3; | XI0] = 5: XL1] +4=2; 
[15 ] < 5.10 > 当 执 行 一 个 正确 的 cache 一 致 性 协议 时 ， 列 出 给 定 cache 块 的 可 能 值 。 如 果 协 议 
不 能 确保 cache 一 致 性 ， 则 列 出 块 的 至 少 一 个 可 能 值 。 

[15 ] <5.10> 对 于 监听 协议 ， 在 每 个 处 理 器 /cache 上 列 出 有 效 的 操作 序列 以 完成 上 述 读 / 写 操作 。 
[ 10 ] < 5.10 > 在 最 好 情况 和 最 坏 情况 下 ， 执 行列 出 的 读 / 写 指令 的 cache 失效 次 数 分 别 是 多 少 ? 
内 存 一 致 性 涉及 多 个 数据 项 的 视图 。 以 下 数据 显示 了 两 个 处 理 器 及 其 在 不 同 cache 块 上 的 读 / 
写 操 作 (A 和 B 最 初 为 0 )。 
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[15 ] < 5.10 > 若 使 用 5.10 节 的 一 致 性 协议 假设 , 列 出 C 和 D 所 有 可 能 的 值 。 

[ 15 ] < 5.10 > 如 果 不 使 用 这 个 假设 ， 列 出 C 和 0 至 少 一 个 可 能 的 值 。 

[ 15 ] < 5.3, 5.10 > 对 于 写 策略 和 写 分 配 策略 的 各 种 组 合 ， 哪 种 组 合 实现 一 致 性 协议 更 简单 ? 
芯片 多 处 理 器 (CMP) 在 单个 芯片 上 具有 多 个 内 核 和 cache。CMP 的 片上 L2 cache 设计 是 一 

种 有 趣 的 权衡 。 下 表 显 示 了 具有 私有 和 共享 L2 cache 设计 的 两 个 基准 测试 程序 的 失效 率 和 命 

中 延迟 。 假 设 LI cache 有 3% 的 失效 率 和 1 个 时 钟 周期 的 访问 时 间 。 


| 
基准 测试 A 的 失效 率 | 10% | 4% 
基准 测试 B 的 失效 率 | 2% 1% 























假设 命中 延迟 为 下 表 中 的 数据 : 





| 5 | 20 | 480.| 


[ 15 ] < 5.13 > 对 于 每 一 种 基准 测试 来 说 ， 哪 种 cache 设计 更 好 ? 使 用 数据 来 证 明 你 的 结论 。 
[15 ] < 5.13 > 随 着 CMP 核心 数 的 增加 ， 片 外 带宽 成 为 瓶颈 。 这 个 瓶颈 如 何以 不 同方 式 影响 私 
有 和 共享 cache 系统 ? 如 果 第 一 个 片 外 链 路 的 访问 延迟 加 倍 ， 请 选择 一 个 最 佳 设计 。 

[ 10 ] < 5.13 > 讨论 单线 程 、 多 线程 和 多 程序 工作 负载 的 共享 和 私有 L2 cache 的 优 缺 点 ， 如 果 有 
片上 L3 cache， 则 重新 考虑 这 个 问题 。 

[ 10 ] < $.13 > 非 阻塞 L2 cache 是 否 会 在 有 共享 L2 cache 或 私有 L2 cache 的 CMP 上 产生 更 多 的 
改进 ? 为 什么 ? 

[ 10 ] < 5.13 > 假设 新 一 代 处 理 器 每 18 个 月 将 核心 数量 增加 一 倍 ， 为 了 保持 相同 的 每 核 性 能 水 
平 ， 三 年 内 发 布 的 处 理 器 需要 多 少 片 外 存储 器 带宽 ? 

[15 ] < 5.13 > 考虑 整个 存储 器 层次 结构 ， 什 么 样 的 优化 可 以 改善 并 发 失效 的 数量 ? 

本 题 研究 Web 服务 器 日 志 的 定义 并 研究 代码 优化 以 提高 日 志 处 理 速度 。 日 志 的 数据 结构 定义 
如 下 : 


struct entry { 

int SrcIP; // remote IP address 

char URL[128]; // request URL (e.g., “GET index.htm1”) 
long long refTime; // reference time 

int status; // connection status 

char browser[64]; // client browser name 

} 10g [NUM_ENTRIES]; 


假设 日 志 的 处 理 函 数 如 下 : 


t sourcelPp (int houry); 


此 函数 确定 给 定 小 时 内 最 常 观 察 到 的 源 卫 。 

[5]<5.15 > 对 于 给 定 的 日 志 处 理 函 数 ， 将 访问 日 志 项 中 的 哪些 字段 ? 假设 cache 块 大 小 为 64 
字 节 ， 没 有 预 取 ， 那 么 给 定 函数 平均 每 个 项 会 引发 多 少 次 cache 失效 ? 

[5] <5.15 > 如 何 重新 组 织 数据 结构 以 提高 cache 利用 率 和 访问 局 部 性 ? 

[ 10 ] <5.15 > 举 一 个 另 一 种 日 志 处 理 函 数 的 例子 ， 它 对 不 同 的 数据 结构 布局 更 友好 。 如 果 两 个 
函数 都 很 重要 ， 你 将 如 何 重 写 程序 以 提高 整体 性 能 ?使 用 代码 段 和 数据 补充 讨论 。 

下 表 中 显示 的 基准 测试 对 使 用 “SPEC CPU2000 基准 测试 出 的 cache 性 能 ”(http://www.cs.wisc. 
edu/multifacet/misc/spec2000cachedata/) 中 的 数据 : 








S.29.1 


S.29.2 


S.29.3 
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[10] <5.15 > 对 于 有 不 同 组 相 联 度 的 64KiB 数据 cache， 每 个 基准 测试 的 每 种 失效 类 型 (强制 
失效 、 容 量 失效 和 冲突 失效 ) 的 失效 率 分 别 是 多 少 ? 

[ 10 ] < 5$.15 > 为 两 个 基准 测试 程序 共享 的 64KiB L1 数据 cache 选择 组 相 联 度 。 如 果 L1 cache 
必须 为 直接 映射 ， 请 选择 1MiB L2 cache 的 组 相 联 度 。 

[20] <5.15> 给 出 一 个 失效 率 表 的 示例 ， 说 明 较 高 的 组 相 联 度 实际 上 会 增加 失效 率 。 构 造 
cache 配置 和 访问 流 进行 证 明 。 

要 支持 多 虚拟 机 ， 需 要 对 两 级 存储 器 进行 虚拟 化 。 每 个 虚拟 机 仍然 控制 虚拟 地 址 (VA) 到 物理 
地 址 ( PA) 的 映射 ， 而 管理 程序 将 每 个 虚拟 机 的 物理 地 址 映射 到 实际 的 机 器 地 址 (MA)。 为 
了 加 速 这 种 映射 ， 称 为 “影子 页 面 ”的 软件 方法 会 复制 虚拟 机 管理 程序 中 每 个 虚拟 机 的 页 表 ， 
并 侦 听 VA 到 PA 的 映射 变化 以 保持 两 个 副本 的 一 臻 性。 为 了 消除 影子 页 表 的 复杂 性 ， 称 为 嵌 
套 页 表 (NPT) 的 硬件 方法 显 式 支持 两 类 页 表 (VA 二 PA 和 PA 一 MA)， 并且 可 以 完全 只 在 硬件 
中 使 用 这 些 表 。 

考虑 以 下 操作 序列 : 创建 进程 ，TLB 失效 ; 缺 页 错误 ; 上 下 文 切换 。 

[ 10 ] < 5.6, 5.7 > 使 用 影子 页 表 和 骨 套 页 表 NPT 技术 时 ， 针 对 给 定 操作 序列 会 分 别 发 生 什么 
情况 ? 

[ 10 ] < 5.6, 5.7> 假设 用 户 页 表 和 内 套 页 表 中 都 存放 基于 x86 的 四 级 页 表 ， 那 么 在 本 地 页 表 和 锯 
套 页 表 NPT 中 产生 TLB 失效 时 分 别 需 要 多 少 次 内 存 访 问 ? 

[15] <5.6, 5.7> 在 TLB 失效 率 、TLB 失效 延迟 、 缺 页 错误 率 和 缺 页 错误 处 理 延 迟 这 些 指标 中 ， 
哪些 指标 对 影子 页 表 更 加 重要 ”哪些 指标 对 嵌 套 页 表 NPT 更 加 重要 ? 

假设 影子 页 面 系统 有 以 下 参数 : 


每 1000 条 指令 的 | 岁 套 页 表 NPT TLB | 每 1000 条 指令 的 
TLB 失 效 次 数 失效 延迟 缺 页 错误 次 数 


| 0.2 | ”200 个 时 钟 周期 0.001 ”| 30 000 个 时 钟 周期 | 


[ 10 ] <5.6> 对 于 一 个 在 本 机 上 执行 时 CPI 为 1 的 基准 测试 程序 ， 如 果 使 用 影子 页 表 和 艇 套 页 
表 NPT 技术 (假设 只 有 页 表 虚 拟 化 开销 )，CPI 数 分 别 是 多 少 ? 

[ 10 ] <5.6> 可 以 使 用 哪些 技术 来 减少 使 用 影子 页 表 技 术 引 入 的 开销 ? 

[10] < 5.6> 可 以 使 用 哪些 技术 来 减少 使 用 艇 套 页 表 NPT 技术 引入 的 开销 ? 
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并 行 处 理 器 : 从 客户 端 到 云 








多 处 理 需 /集群 的 组 织 架 构 


6.1 引言 
长 久 以 来 ,计算 机 架构 师 一 直 在 寻找 计算 机 设计 的 “黄金 之 城 ” 
(理想 国 ): 只 需要 简单 地 连接 许多 现 有 的 小 计算 机 ， 就 可 以 制造 出 一 
台 功 能 强大 的 计算 机 。 这 个 “黄金 愿景 ”就 是 多 处 理 器 产生 的 根源 。 
在 理想 情况 下 ， 客 户 根 据 自己 的 支付 能 力 订 购 尽 可 能 多 的 处 理 器 ， 
并 希望 以 此 获得 相应 多 的 性 能 。 因 此 ， 必 须 将 运行 在 多 处 理 器 上 的 
软件 设计 为 可 以 运行 在 数量 可 变 的 处 理 器 之 上 。 正 如 我 们 在 第 1 章 
中 所 提 到 的 ， 能 耗 已 经 成 为 微 处 理 器 和 数据 中 心 要 面 对 的 首要 问题 。 
如 果 软 件 可 以 有 效 地 使 用 处 理 器 ， 那 么 使 用 大 量 小 型 、 高 效 的 处 理 
器 蔡 换 大 型 、 低 效 的 处 理 器 ， 每 单位 焦耳 就 可 以 在 不 同类 型 的 处 理 
器 中 都 提供 更 好 的 性 能 。 因 此 ， 在 多 处 理 器 情况 下 ， 除 了 可 伸缩 的 
性 能 外 ， 还 需要 关注 提升 能 源 效率 。 

由 于 多 处 理 器 软件 支持 数量 可 变 的 处 理 器 系统 ， 所 以 有 一 些 设 
计 支 持 在 部 分 硬件 损坏 的 情况 下 继续 进行 操作 。 也 就 是 说 ， 如 果 在 
具有 个 处 理 器 的 多 处 理 器 中 有 1 个 处 理 器 出 现 故障 ， 这 些 系统 将 
继续 使 用 剩 下 的 n-1 个 处 理 器 提供 服务 。 因 此 ， 多 处 理 器 也 可 以 提 
高 可 用 性 ( 见 第 5 章 )。 

对 多 个 相互 独立 的 任务 来 说 ， 高 性 能 意味 着 更 高 的 吞吐 量 ， 我 
们 称 之 为 任务 级 跨行 (task-level parallelism) 或 进程 级 苹 行 (process- 
level parallelism) 。 这 种 多 任务 、 单 线程 、 相 互 独立 的 应 用 程序 组 
织 方式 在 多 处 理 器 中 非常 重要 并 且 普 遍 使 用 。 与 之 相对 的 是 在 多 


~ N 


计算 机 





我 大 力 挥 苗 球 棍 ， 用 尽 我 
所 有 的 力量 。 我 可 能 得 到 
很 多 东西 ， 也 可 能 失去 很 
多 。 我 想 要 用 力 地 活着 。 
Babe onMh， 关 国 苞 正和 运动 轴 


越过 月 亮 上 的 山脉 ， 沿 着 
阴影 中 的 山谷 ， 前 进 ， 筋 
敢 地 前 进 一 一 如 果 你 在 寻 
找 理想 国 ! 

Eadgar Allan Poe, El 

Dorado, stanza 4, 18949 


多 处 理 器 : 至 少 具有 两 个 
处 理 器 的 计算 机 系统 。 这 
种 计算 机 与 单 处 理 器 计算 
机 形成 鲜明 对 比 ， 单 处 理 
器 计算 机 只 具有 一 个 处 理 
器 ， 且 这 种 计算 机 现在 越 
来 越 少 了 。 


任务 级 并 行 或 进程 级 并 行 : 
通过 同时 运行 独立 的 多 个 
程序 来 使 用 多 处 理 器 
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个 处 理 器 上 运行 单个 任务 ,我 们 使 用 术语 并 行 处 理 程序 (parallel 
processing program) 来 指 代 同 时 运行 在 多 个 处 理 器 上 的 单个 程序 。 

在 过 去 的 几 十 年 中 ,存在 很 多 的 科学 问题 需要 速度 更 快 的 计算 
机 ， 同 时 这 些 问题 也 被 用 于 评价 许多 新 型 并 行 计算 机 的 性 能 。 通 过 区 通过 局 域 网 连接 的 


并 行 处 理 程序 : 同时 在 多 个 
处 理 器 上 运行 的 单个 程序 。 





使 用 集群 (cluster) 这 种 由 许多 位 于 独立 服务 器 中 的 微 处 理 器 组 成 的 。| 了 后， 
结构 ( 见 6.7 节 )， 这 其 中 的 一 些 问题 在 今天 已 经 十 分 容易 解决 。 除 

此 以 外 ， 集 群 还 可 以 为 除 科 学 之 外 的 其 他 同等 需求 的 应 用 程序 提供 志 本 入 总 是 晤 大昌 小 末 
服务 ， 例如 搜索 引擎 、 Web 服务 器 、 电子 邮件 服务 器 和 数据 库 等 。 成 电路 中 包含 多 个 处 理 器 

如 第 1 章 所 述 ， 由 于 能 耗 问题 意味 着 未 来 处 理 器 性 能 的 提升 主 | ( 核 ) 的 微 处 理 器 。 目 前 ， 
要 来 自 于 显 式 的 硬件 并 行 ， 而 不 是 更 高 的 时 钟 频 率 或 更 大 的 CPI 提 台式 机 和 服务 器 中 基本 所 
升 ， 因 此 多 处 理 器 已 经 成 为 受 人 瞩目 的 焦点 。 也 正如 我 们 在 第 1 章 | “集合 于 器 才 是 多 梳 的 。 
中 所 说 的 ， 它 们 将 被 命名 为 多 核 微 处 理 器 (multicore microprocessor ) 

而 不 是 多 处 理 器 微 处 理 器 (multiprocessor microprocessor)， 这 可 能 ee 
是 为 了 避免 名 称 上 的 宛 余 。 因 此 ， 处 理 器 在 多 核 芯 片 中 通常 被 称 为 | 理 器 。 

核心 。 核 心 数 量 预计 按照 历 角 定律 (Moore's Law) 的 速度 增长 。 这 

些 多 核 基 本 都 是 共享 内 存 处 理 器 ( Shared Memory Processor，SMP )， 因 为 它们 通常 共享 同一 
个 物理 地 址 空间 。 在 6.5 节 中 ， 我 们 将 更 深入 地 了 解 SMP。 

当今 的 技术 状态 意味 着 关心 性 能 的 程序 员 必 须 成 为 并 行程 序 的 编写 者 ， 因 为 串 行 代码 现 
在 意味 着 执行 速度 慢 。 

而 工业 界面 临 的 巨大 挑战 就 是 如 何 构建 软 硬 件 系 统 ， 使 得 并 行 处 理 程序 更 加 易于 编写 ， 
并 且 能 够 有 效 执行 ， 同 时 还 能 够 使 得 性 能 和 功 耗 在 每 个 芯片 内 核 数量 改变 时 相应 改善 。 

微 处 理 器 设计 方向 的 这 种 突然 转变 使 得 许多 人 措手不及 ， 因 而 在 术语 及 其 含义 上 存在 
很 大 的 混淆 。 图 6-1 试图 阐明 术语 串 行 (serial)、 并 行 (parallel)、 顺 序 ( sequential) 和 并 发 
(concurrent) 之 间 的 差异 。 图 中 的 列 代表 软件 ， 分 为 顺序 的 或 并 发 的 。 图 中 的 行 代表 硬件 ， 
分 为 串 行 的 或 并 行 的 。 例 如 ， 编 译 器 程序 员 将 编译 器 视 为 顺序 程序 ， 其 步骤 包括 分 析 、 代 码 
生成 和 优化 等 。 相 反 ， 操 作 系 统 程序 员 会 将 操作 系统 视 为 并 发 程序 ， 因 为 操作 系统 是 一 组 协 
作 进程 ， 这 组 进程 处 理 在 一 台 计 算 机 上 运行 的 多 个 独立 任务 引发 的 IO 事件 。 


在 Intel Pentium 4 上 运行 的 使 用 在 Intel Pentium 4 上 运行 的 Windows 
MATLAB 编 写 的 和 矩阵 乘法 程序 Vista 的 操作 系统 程序 





在 Intel Core i7 上 运行 的 使 用 在 Intel Core i7 上 运行 的 Windows 
MATLAB 编 写 的 矩阵 乘法 程序 Vista 的 操作 系统 程序 
图 6-1 软 / 硬 件 分 类 及 对 比 实例 


图 6-1 的 关键 点 在 于 并 发 软件 既 可 以 在 串 行 硬件 上 执行 (例如 操作 系统 程序 可 以 在 Intel 
Pentium 4 单 处 理 器 上 运行 )， 也 可 以 在 并 行 硬件 上 执行 (例如 在 Intel Core i7 上 运行 的 操作 系 
统 程序 )。 顺 序 软 件 也 是 如 此 ， 例 如 ，MATLAB 程序 员 按 顺序 编写 了 一 个 矩阵 乘法 程序 ， 但 
这 个 程序 既 可 以 在 Intel Pentium 4 单 处 理 器 上 运行 ， 又 可 以 在 Intel Core i7 上 并 行 运行 。 

你 可 能 会 认为 编写 并 行程 序 的 唯一 挑战 是 弄 清楚 如 何 使 得 自然 逻辑 为 顺序 的 软件 能 够 高 





性 能 地 运行 在 并 行 硬件 上 ， 但 实际 上 ， 并 发 程序 在 多 处 理 器 上 如 何 随 着 处 理 器 数量 的 增加 而 
提高 性 能 也 是 一 个 难点 。 为 加 以 区 别 ， 在 本 章 的 剩余 部 分 里 ， 我 们 将 使 用 并 行 处 理 程序 或 并 
行 软 件 来 表示 在 并 行 硬 件 上 运行 的 顺序 或 并 发 软件 。 下 一 节 中 我 们 将 会 解释 为 什么 创建 有 效 
的 并 行 处 理 程 序 是 一 件 很 困难 的 事情 。 

在 继续 了 解 更 深入 的 并 行 概念 之 前 ， 你 可 以 回顾 之 前 章节 讲述 的 以 下 内 容 : 

e 2.11 节 指令 与 并 行 性 : 同步 

e 3.6 节 并行 性 与 计算 机 算术 : 子 字 并 行 

e 4.10 节 指令 间 的 并 行 性 

e 5.10 节 并 行 和 存储 器 层次 : cache 一 致 性 





“自我 答 测 判断 题 : 要 从 多 处 理 器 中 获得 收益 ， 应 用 程序 必须 是 并 发 的 。 


6.2 ”创建 并 行 处 理 程 序 的 难点 


并 行 性 的 困难 并 不 在 于 硬件 ， 而 是 在 于 只 有 很 少 的 重要 应 用 程序 在 被 重 写 后 能 够 在 多 处 
理 器 上 更 快 地 完成 任务 。 事 实 上 ,编写 软件 以 利用 多 处 理 器 使 得 单个 任务 的 运行 更 加 快速 是 
十 分 困难 的 ， 并 且 在 处 理 器 的 数量 增加 时 间 题 会 变 得 更 加 严重 。 

是 什么 造成 了 这 些 问题 ? 为 什么 开发 并 行 处 理 程序 比 开发 顺序 程序 更 困难 ? 

第 一 个 原因 是 : 你 必须 通过 在 多 处 理 器 上 运行 的 并 行 处 理 程序 获得 更 好 的 性 能 或 更 高 的 
能 效 ， 和 否则 ， 为 什么 不 在 单 处 理 器 上 运行 顺序 程序 呢 ? 顺序 程序 的 编程 更 加 简单 。 事 实 上 ， 
单 处 理 器 设计 技术 (如 超标 量 和 乱 序 执行 ) 都 充分 利用 了 指令 级 并 行 ( 见 第 4 章 )， 而 且 通 常 
不 需要 程序 员 的 参与 。 这 些 创 新 减少 了 重 写 多 处 理 器 程序 的 需求 ， 因 为 程序 员 对 这 种 重 写 无 
能 为 力 ， 而 且 即 使 什么 都 不 做 ， 顺 序 程序 也 能 够 在 新 计算 机 上 运行 得 更 快 。 

为 什么 编写 快速 的 并 行 处 理 程序 很 困难 (特别 是 希望 执行 速度 随 着 处 理 器 数量 的 增加 
而 增加 时 ) ? 在 第 1 章 中 ,我 们 使 用 了 八 个 记者 试图 同时 编写 一 个 故事 以 期 能 够 快 八 倍 地 
完成 这 项 工作 的 类 比 。 要 想 成 功 地 完成 工作 ， 任 务必 须 被 分 成 相同 大 小 的 八 个 部 分 ， 否则 
一 些 记者 就 会 因为 等 待 分 配 到 较 大 工作 量 的 人 员 完 成 任务 而 产生 闲置 时 间 。 另 一 个 影响 加 
速 的 障碍 是 记者 可 能 会 将 太 多 时 间 花 费 在 沟通 上 ， 而 不 是 用 于 写 下 自己 负责 的 那 部 分 故事 
上 。 无 论 是 这 个 类 比 还 是 并 行 编程 本 身 ， 都 要 面临 如 下 挑战 : 调度 、 将 工作 划分 为 可 并 行 的 
部 分 、 在 工作 者 之 间 均 衡 负 载 、 同 步 时 间 以 及 处 理 各 部 分 之 间 通 信 的 开销 。 而 随 着 在 报纸 上 
报道 故事 的 记者 数量 的 增加 ， 以 及 参与 并 行 编程 的 处 理 器 数量 的 增多 ， 这 种 挑战 会 变 得 更 加 
严峻 。 

在 第 1 章 中 ,我 们 的 讨论 还 揭示 了 另外 一 个 障碍 ， 它 被 称 为 Amdahl 定律 。 该 定律 提醒 
我 们 ， 如 果 一 个 程序 想 要 充分 地 利用 许多 核心 ,那么 即使 是 该 程序 的 很 小 一 部 分 也 必须 进行 
优化 。 
| 例题 | 加 速 比 的 挑战 

假设 你 希望 在 100 个 处 理 器 上 实现 90 倍 的 加 速 ， 那 么 原始 计算 中 的 百 分 之 多 少 可 以 是 
顺序 执行 的 ? 
| 答案 | Amdahl 定律 表明 ( 见 第 1 章 )， 
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受 优化 影响 的 执行 时 间 
优化 量 

我 们 可 以 在 加 速 比方 向 上 重新 定义 Amdahl 定律 : 

改进 前 的 执行 时 间 


改进 前 的 执行 时 间 一 受 优化 影响 的 执行 时 间 + 安全 
假设 改进 前 的 执行 时 间 在 某 个 单位 时 间 内 为 1， 并 且 受 优化 影响 的 执行 时 间 可 以 被 视 作 与 原 
始 执行 时 间 的 比值 ， 那 么 这 个 公式 通常 可 以 重 写 为 : 
1 
旭 优 化 影响 的 执行 时 间 化 从 


_ 琶 伏 多 响 的 执行 时 ) | 
1- 受 优化 影响 的 执行 时 间 比 例 + 人 


现在 将 90 替换 为 公式 中 的 加 速 比 ， 将 100 替换 为 公式 中 的 优化 量 : 


1 
90= 
1- 受 优化 影响 的 执行 时 间 比 例 + 


优化 后 的 执行 时 间 = + 不 受 优化 影响 的 执行 时 间 


加 速 比 = 





加 速 比 = 





受 优 化 影响 的 执行 时 间 比 例 
100 





然后 简化 公式 ， 并 计算 出 受 优化 影响 的 执行 时 间 比 例 : 


90Xx (1-0.99X 受 优化 影响 的 执行 时 间 比 例 ) =1 
90 一 (90X0.99X 受 优化 影响 的 执行 时 间 比 例 ) = 1 
90 一 1 = 90X0.99X 受 优化 影响 的 执行 时 间 比 例 
受 优化 影响 的 执行 时 间 比 例 = 89/89.1 = 0.999 
因此 ， 为 了 在 100 个 处 理 器 上 实现 90 倍 的 加 速 ， 顺 序 执行 的 程序 部 分 最 多 占 0.1%。 一 一 一 


但 是 ， 正 如 我 们 接 下 来 将 要 看 到 的 那样 ， 有 大 量具 有 固有 并 发 特征 的 应 用 程序 。 


| 例题 | 加 速 比 的 挑战 : 更 大 规模 的 问题 
假设 现在 你 想 要 计算 出 两 个 加 法 : 一 个 加 法 是 10 个 标量 变量 的 求 和 ， 另 一 个 加 法 是 一 
对 10x 10 的 二 维 数组 求 矩 阵 和 。 目 前 假设 只 有 和 矩阵 求 和 可 以 并 行 化 ， 之 后 我 们 将 会 看 到 如 
何 对 标量 求 和 进行 并 行 化 。 使 用 10 个 和 40 个 处 理 器 能 达到 的 加 速 比 分 别 是 多 少 ? 如 果 和 矩阵 
维 数 变 为 20x 20 呢 ? 
| 答案 | 假设 性 能 是 加 法 程序 所 需 时 间 1 的 函数 ， 并 且 假 设 有 10 次 加 法 不 能 从 并 行 处 理 器 中 
获得 收益 ， 有 100 次 加 法 可 以 从 并 行 中 获得 收益 。 如 果 该 加 法 程序 在 单个 处 理 器 上 的 运行 时 
间 是 110t， 那 么 这 个 加 法 程序 在 10 个 处 理 器 上 的 执行 时 间 是 : 
受 优化 影响 的 执行 时 间 
优化 量 
100c 


优化 后 的 执行 时 间 = 一 +10e =20e 





优化 后 的 执行 时 间 = + 不 受 优 化 影响 的 执行 时 间 


所 以 这 个 加 法 程序 在 10 个 处 理 器 上 的 加 速 比 为 110i/20 上 =5.5。 这 个 加 法 程序 在 40 个 处 理 器 
上 的 执行 时 间 是 : 





优化 后 的 执行 时 间 -+101= 12.51 


所 以 这 个 加 法 程序 在 40 个 处 理 器 上 的 加 速 比 为 110W/12.5t = 8.8。 因 此 ， 在 这 个 问题 规模 下 ， 
我 们 在 10 个 处 理 器 上 获得 了 潜在 加 速 比 的 大 约 55%，, 但 是 在 40 个 处 理 嚣 上 只 获得 了 潜在 加 
速 比 的 22%。 

现在 让 我 们 看 看 在 矩阵 规模 增加 后 会 发 生 什 么 。 顺 序 程序 现在 需要 的 执行 时 间 是 
10t+400t = 410t。 这 个 加 法 程序 在 10 个 处 理 器 上 的 执行 时 间 是 : 


优化 后 的 执行 时 间 -+10r= S0Lt 


所 以 这 个 加 法 程序 在 10 个 处 理 器 上 的 加 速 比 为 410W50 三 8.2。 这 个 加 法 程序 在 40 个 处 理 器 
上 的 执行 时 间 是 : 

优化 后 的 执行 时 间 = 人 +101= 201 
所 以 这 个 加 法 程序 在 40 个 处 理 器 上 的 加 速 比 为 410#/20t = 20.5。 因 此 ， 对 于 这 个 规模 更 大 的 
问题 ， 我 们 在 10 个 处 理 器 上 获得 了 潜在 加 速 比 的 82%， 在 40 个 处 理 右 上 获得 了 潜在 加 速 比 
的 51%。 








上 述 例子 表明 ， 想 要 在 多 处 理 器 上 获得 良好 的 加 速 比 ， 保 持 问 题 规模 不 变 的 情况 相 比 于 
问题 规模 增长 的 情况 要 更 困难 。 为 此 我 们 引入 两 个 术语 来 描述 按 比例 缩放 的 方式 。 

各 地 交大 大 ( strong scaling) 意味 着 在 保持 问题 规模 不 变 的 同时 i pe 
所 测量 的 加 速 比 。 弱 比例 缩放 ( weak scaling) 意味 着 问题 规模 与 处 | 题 规模 的 情况 下 在 多 处 理 
理 器 的 数量 成 比例 增长 时 所 测量 的 加 速 比 。 我 们 假设 问题 规模 M 是 ”| 器 上 获得 的 加 速 比 
主 存 中 的 工作 集 ， 处 理 器 数量 为 P， 那 么 每 个 处 理 器 所 占用 的 内 存 
对 于 强 比例 缩放 大 约 为 MJP， 对 于 弱 比 例 缩放 大 约 为 Ms ee 

需要 注意 的 是 ， 因 哮喘 肖 经 结构 可 能 会 干扰 认为 弱 比例 缩放 比 。 | 与 处 理 器 数量 成 比例 增加 
强 比例 缩放 更 简单 的 传统 观念 。 举 例 来 说 ， 如 果 弱 比例 缩放 的 数据 | 的 情况 下 在 多 处 理 器 上 获 
集 不 再 适用 于 多 核 微 处 理 器 的 最 后 一 级 cache， 那 么 可 能 会 导致 系统 | 得 的 加 速 比 。 
性 能 比 使 用 强 比例 缩放 更 加 糟糕 。 

根据 应 用 程序 的 不 同 ， 可 以 选择 不 同 的 缩放 方式 。 例 如 ，TPC-C 借贷 - 重 定向 数据 库 基 
准 测试 程序 需要 每 分 钟 按照 更 高 的 事务 比例 来 成 比例 地 扩展 客户 账户 的 数量 。 如 果 只 是 因为 
银行 获得 了 更 快速 的 计算 机 ， 就 要 求 客户 突然 开始 每 天 使 用 ATM 上 百 次 ， 这 显然 是 很 荒 雇 
的 。 相 反 ， 如 果 希 望 证 明 系 统 在 每 分 钟 内 执行 事务 的 数量 能 够 提高 100 倍 ， 那 么 应 该 在 客户 
数 提高 100 倍 的 情况 下 运行 实验 。 更 大 规模 的 问题 通常 需要 更 多 的 数据 ， 这 是 弱 比 例 缩放 的 
论据 。 

最 后 一 个 示例 用 于 说 明 均 衡 负载 的 重要 性 。 


| 例题 | 加 速 比 的 挑战 : 均衡 负载 . 

在 上 一 个 例子 中 , 我 们 在 矩阵 规模 增加 后 在 40 个 处 理 器 上 获得 了 20.5 的 加 速 比 ， 当 
时 我 们 假设 负载 是 完全 均衡 的 。 也 就 是 说 ， 这 40 个 处 理 器 中 的 任何 一 个 处 理 器 都 需要 完成 
2.5% 的 任务 。 然 而 ， 如 果 其 中 一 个 处 理 器 的 负载 比 剩余 处 理 器 的 负载 要 高 ， 就 会 对 加 速 比 
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产生 影响 。 请 你 计算 负载 最 重 的 处 理 器 完成 两 倍 负 载 ( 5%) 和 五 倍 负载 ( 12.5%) 时 的 加 速 
比 。 此 时 其 他 处 理 器 的 利用 率 如 何 ? 
| 答案 | 如 果 一 个 处 理 器 需要 完成 5% 的 并 行 负载 ， 那 么 它 必 须 执行 5% x 400 也 就 是 20 次 加 
法 ， 而 另外 39 个 处 理 器 将 平分 剩余 的 380 次 加 法 。 由 于 这 些 操作 是 同时 进行 的 ， 我 们 可 以 
将 执行 时 间 计 算 为 两 者 的 最 大 值 : 
优化 后 的 执行 时 间 = max| 0， 20 |+107=30 
加 速 比 从 20.5 下 降 至 410V30F=14。 其 余 39 个 处 理 器 的 使 用 时 间 不 到 负载 最 重 的 处 理 器 
的 一 半 : 在 等 待 负载 最 重 的 处 理 器 完成 时 常 为 20t 的 任务 时 ， 其 余 处 理 器 的 计算 时 间 仅 为 
380139=9.71。 
如 果 一 个 处 理 器 需要 完成 12.5% 的 负载 ， 那 么 它 必 须 执 行 50 次 加 法 。 上 述 公式 变 为 : 
全 化 后 的 执行 时 间 = max| 3530 .30 |+107= 60 
加 速 比 进一步 降低 为 410#/60 二 7。 其 余 处 理 器 的 使 用 时 间 不 到 20% (9w50L) 。 这 个 示例 证 明 
了 负载 均衡 的 重要 性 : 只 有 一 个 处 理 器 的 负载 是 其 他 处 理 器 的 两 倍 时 ， 加 速 比 会 降低 三 分 之 
一 ， 而 当 一 个 处 理 器 的 负载 是 其 他 处 理 器 的 五 倍 时 ， 加 速 比 几乎 降低 为 原来 的 三 分 之 一 。 一 = 


既然 我 们 已 经 更 好 地 理解 了 并 行 处 理 的 目标 和 挑战 ， 接 下 来 就 可 以 对 本 章 的 剩余 部 分 进 
行 概述 了 。6.3 节 中 介绍 了 一 个 比 图 6-1 中 更 古老 的 分 类 方案 。 此 外 ， 该 节 还 给 出 了 两 种 支 
持 在 并 行 硬件 上 运行 顺序 应 用 程序 的 指令 系统 ， 即 SIMD 和 向 量 (vector)。6.4 节 介 绍 了 多 
线程 ， 这 个 术语 经 常 与 多 处 理 器 相 混 淆 ， 部 分 原因 在 于 它们 都 依赖 于 程序 中 相似 的 并 发 。6.5 
节 介 绍 了 基本 并 行 硬件 的 两 种 类 型 特征 ， 它 们 的 区 别 在 于 系统 中 所 有 的 处 理 器 是 否 依赖 于 单 
个 的 物理 地 址 空间 。 如 上 文 所 述 ， 这 两 种 类 型 的 常见 形式 分 别 为 共享 内 存 多 处 理 器 (SMP) 
和 集群 (cluster)，6.5 节 介 绍 前 者 。6.6 节 描 述 来 自 图 形 硬 件 领域 的 相对 较 新 的 计算 机 类 型 ， 
称 为 图 形 处 理 单元 (GPU)，GPU 也 共享 单个 物理 地 址 。( 附 录 B 更 详细 地 描述 了 GPU。) 6.7 
节 描述 了 集群 ， 这 是 具有 多 个 物理 地 址 空间 的 计算 机 的 一 个 常见 示例 。6.8 节 展 示 了 用 于 将 
多 个 处 理 器 (可 以 是 集群 中 的 多 个 服务 器 节点 ， 也 可 以 是 微 处 理 器 中 的 多 个 核心 ) 连接 在 一 
起 的 典型 拓扑 结构 。6.9 节 介 绍 了 通过 以 太 网 在 集群 节点 间 进 行 通信 的 硬件 和 软件 ， 展 示 了 
如 何 使 用 用 户 软件 和 硬件 优化 其 性 能 。 在 6.10 节 中 ， 我们 将 讨论 找到 并 行 基准 测试 的 难度 ， 
其 中 还 包括 一 个 简单 但 很 有 启发 意义 的 性 能 模型 ， 该 模型 有 助 于 设计 应 用 程序 和 体系 结构 。 
我 们 将 在 6.11 节 中 同时 使 用 该 模型 和 并 行 基准 测试 程序 来 比较 多 核 计 算 机 与 GPU。6.12 节 
揭示 了 加 速 和 矩阵 乘法 的 最 后 也 是 最 大 的 一 个 步 又 。 对 于 无 法 在 cache 中 放下 的 和 矩阵， 并行 处 
理 使 用 16 个 内 核 将 性 能 提高 了 14 倍 。 本 章 最 后 解析 了 一 些 常 见 的 廖 误 和 陷阱 ， 并 进行 了 
总 结 。 

在 下 一 节 中 ， 我 们 会 介绍 一 些 你 可 能 已 经 见 过 的 缩 略 词 ， 它 们 用 于 识别 不 同类 型 的 并 行 
计算 机 。 
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6.3 SISD、MIMD、SIMD、SPMD 和 向 量 机 

本 节 介 绍 一 种 于 20 世纪 60 年 代 提出 的 并 行 硬件 的 分 类 方法 ， 
这 种 分 类 方法 目前 仍 在 使 用 。 该 分 类 基于 指令 流 数 量 和 数据 流 数量 。 
图 6-2 展示 了 这 种 分 类 。 传 统 的 单 处 理 器 具有 单个 指令 流 和 单个 数 
据 流 ， 传 统 的 多 处 理 器 具有 多 个 指令 流 和 多 个 数据 流 。 这 两 个 类 别 
分 别 缩写 为 SISD ( Single Instruction stream，Single Data stream) 和 
MIMD (Multiple Instruction streams, Multiple Data streams ) 。 


SISD : ( 单 指令 流 单数 据 
流 的 ) 单 处 理 器 。 





MIMD : (多 指令 流 多 数据 
流 的 ) 多 处 理 器 。 














数据 流 
单数 据 流 多 数据 流 
桥 过 并 单 指令 流 SISD: Intel Pentium 4 SIMD: x86 的 SSE 指 令 
ER 多 指令 流 MISD: 目前 为 止 还 没有 实例 MIMD. Intel Core i7 























图 6-2 基于 指令 流 数量 和 数据 流 数 量 的 硬件 分 类 实例 : SISD、SIMD、MISD 和 MIMD 


尽管 可 以 在 MIMD 计算 机 上 编写 运行 在 不 同 处 理 器 上 的 独立 程 | spMD: 单程 序 多 数据 流 ， 
序 ， 但 是 ， 为 了 实现 更 宏大 、 更 协调 的 目标 ， 程 序 员 通 常会 编写 一 “| 是 一 种 传统 的 MIMD 编程 
个 运行 在 MIMD 计算 机 中 所 有 处 理 器 上 的 程序 ， 不 同 的 处 理 器 通 | 人 
过 条 件 语句 执行 不 同 的 代码 段 。 这 种 编程 风格 称 为 单程 序 多 数据 流 “ 

( Single Program Multiple Data，SPMD )， 它 是 在 MIMD 计算 机 上 编 | SIMD : 单 指令 流 多 数据 
程 的 一 种 常用 方法 。 流 。 就 像 在 向 量 处 理 器 中 

最 接近 多 指令 流 单数 据 流 ( MISD) 的 处 理 器 应 该 是 “ 流 处 理 | 了 
器 ”了 ， 这 种 处 理 器 在 单数 据 流 上 以 流水 线 方式 执行 一 系列 计算 
解析 来 自 网 络 的 输入 ， 分 析 数 据 ， 解 压缩 ， 查 找 匹 配 ， 等 等 。 相 比 之 下 ， 与 MISD 相反 的 类 
型 一 一 SIMD 更 受 欢 迎 一 些 。SIMD ( Single Instruction stream, Multiple Data streams) 计算 机 
对 数据 向 量 进行 操作 。 例 如 ， 单 个 SIMD 指令 将 64 个 数据 流 发 送 到 64 个 ALU 上 ， 以 在 单 
个 时 钟 周期 内 完成 64 次 加 法 来 将 64 个 数字 相 加 。 我 们 在 3.6 节 和 3.7 节 中 看 到 的 子 字 并 行 
指令 是 SIMD 的 另 一 个 例子 ， 事 实 上 ，SSE 这 个 缩写 的 中 间 字 母 $ 正 是 代表 了 SIMD。 

SIMD 的 优点 是 所 有 的 并 行 执行 单元 都 是 同步 的 ， 它 们 都 响应 自 同一 程序 计数 器 (PC ) 
中 发 出 的 同一 指令 。 从 程序 员 的 角度 看 ， 这 与 他 们 已 经 很 熟悉 的 SISD 的 概念 非常 接近 。 尽 
管 每 个 单元 将 执行 相同 的 指令 ， 但 是 每 个 执行 单元 都 有 上 自己 的 地 址 寄存 器 ， 因 此 每 个 单元 可 
以 有 不 同 的 数据 地 址 。 根 据 图 6-1， 一 个 顺序 应 用 程序 编译 后 ， 既 可 能 在 组 织 为 SISD 的 串 行 
硬件 上 运行 ， 也 可 能 在 组 织 为 SIMD 的 并 行 硬件 上 运行 。 

SIMD 的 初衷 是 在 数 个 执行 单元 上 分 挫 控 制 单元 的 成 本 。 因 此 ，SIMD 的 男 一 个 优点 是 
减少 了 指令 带宽 和 空间 一 一 SIMD 只 需要 同时 执行 代码 的 一 个 副本 ， 而 消息 传递 的 MIMD 可 
能 需要 在 每 个 处 理 器 中 都 存 有 一 个 副本 ， 而 共享 存储 需 的 MIMD 可 能 需要 多 个 指令 缓存 。 

SIMD 在 处 理 for 循环 中 的 数组 时 效果 最 好 。 因 此 ， 为 了 在 SIMD 上 并 行 运行 ， 程 序 中 
必须 存在 大 量 相 同 结构 的 数据 ， 这 称 为 数据 级 并 行 ( data-level 
parallelism)。SIMD 在 处 理 case 和 switch 语句 时 效果 最 差 ， 在 | 数据 级 并 行 通过 对 独立 
这 些 语句 中 ， 每 个 执行 单元 必须 根据 单元 内 存放 的 不 同 数据 对 这 些 | 数据 执行 相同 的 操作 来 实 
数据 执行 不 同 的 操作 。 存 放 有 错误 数据 的 执行 单元 必须 被 禁止 执行 ， | 现 并 行 性 。 
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以 便 存放 有 正确 数据 的 执行 单元 可 以 继续 工作 。 在 有 nn 个 case 语句 的 情况 下 ，SIMD 处 理 器 
基本 上 只 能 以 峰值 性 能 的 1 工作。 

虽然 促使 SIMD 类 型 产生 的 阵列 处 理 器 已 经 逐渐 淡出 历史 ( 见 6.15 节 ), 但 是 目前 对 
SIMD 的 两 种 解释 依然 活跃 。 


6.3.1 x86 中 的 SIMD: 多 媒体 扩展 


正如 第 3 章 所 述 ，1996 年 x86 多 媒体 扩展 ( MMX) 指令 的 灵感 来 源 是 窗 整 数 数据 的 
子 字 并 行 。 随 着 摩尔 定律 的 持续 ， 更 多 的 指令 被 添加 进来 ， 首 先 引 入 的 是 流 式 SIMD 扩展 
(SSE) 和 高 级 向 量 扩展 (AVX)。AVX 支持 同时 执行 四 个 64 位 浮 点 数 。 操 作 和 寄存 器 的 宽度 
被 编码 在 这 些 多 媒体 指令 的 操作 码 中 。 随 着 操作 和 寄存 器 的 数据 宽度 的 增加 ， 多 媒体 指令 的 
操作 码 数量 也 在 增加 ， 现 在 已 经 有 数 百 条 SSE 和 AVX 指令 ( 见 第 3 章 )。 


6.3.2 向量 机 


正如 我 们 将 要 看 到 的 那样 ， 对 SIMD 更 加 古老 、 更 加 优雅 的 解释 被 称 为 向 量 体 系 结构 ， 
这 与 Seymour Cray 在 20 世纪 70 年 代 开 始 设计 的 计算 机 密切 相关 。 这 种 体系 结构 与 具有 大 
量 数据 级 并 行 的 问题 非常 匹配 。 与 早期 的 阵列 处 理 器 一 样 ，64 个 ALU 并 不 是 同时 执行 64 次 
加 法 ， 而 是 采用 向 量 体 系 结构 流水 化 ALU， 从 而 以 更 低 的 成 本 获得 良好 的 性 能 。 向 量 体 系 结 
构 的 基本 原理 是 从 内 存 中 收集 数据 元 ， 将 它们 按 顺 序 放 入 一 大 组 寄存 器 中 ,使 用 小 张 化 的 执 
行 单元 在 寄存 器 中 依次 对 它们 进行 操作 ， 然 后 将 结果 写 回 内 存 。 向 量 体 系 结构 的 二 个 关键 特 
性 是 拥有 一 组 向 量 寄存 器 。 这 样 ， 一 个 向 量 体 系 结构 中 可 能 具有 32 个 向 量 寄存 器 ， 每 个 寄 
存 器 包含 64 个 64 位 宽 的 数据 元 。 


| 例题 | 将 向 量 与 常规 代码 进行 比较 
现在 假设 我 们 使 用 向 量 指令 和 向 量 寄存 器 来 扩展 RISC-V 指令 系统 体系 结构 。 向 量 操作 
使 用 与 RISC-V 操作 相同 的 名 称 ， 但 在 后 级 上 添加 了 “V”。 例如，fadd.d.v 这 条 指令 将 
两 个 双 精 度 向 量 相 加 。 接 下 来 添加 32 个 向 量 寄存 器 v0 ~ v31， 每 个 寄存 器 包含 64 个 64 位 
数据 元 。 向 量 指令 既 可 以 将 两 个 向 量 (V) 寄存 器 作为 输入 (使 用 指令 fadd.d.v)， 也 可 以 
将 一 个 向 量 寄存 器 和 一 个 标量 寄存 器 作为 输入 (使 用 指令 fadd.d.vs)。 在 后 一 种 情况 下 ， 
标量 寄存 器 中 的 值 用 作 所 有 操作 的 输入 一 一 fadd .d.vs 这 个 操作 将 标量 寄存 器 中 的 内 容 加 
到 向 量 寄存 器 中 的 每 个 数据 元 上 。 操 作 f1d.v 和 fsd.v 表示 向 量 加 载 与 向 量 存储 ， 这 两 条 
指令 分 别 加 载 或 存储 整个 双 精 度数 据 向 量 。 其 中 一 个 操作 数 是 要 加 载 或 存储 的 向 量 寄存 器 ， 
另 一 个 操作 数 是 RISC-V 的 通用 寄存 器 ， 用 于 给 出 存储 器 中 向 量 的 起 始 地 址 。 
在 简要 描述 后 ， 答 案 中 给 出 了 下 述 语 句 的 传统 RISC-V 代码 和 向 量 RISC-V 代码 : 
Y=axX+Y 
其 中 , 和 了 是 64 个 双 精 度 浮 点 数 的 向 量 ， 最 初 驻 留 在 内 存 中 ,a 是 一 个 标量 双 精 度 变 
量 。( 这 个 示例 就 是 所 谓 的 DAXPY 循环 ， 该 循环 组 成 Linpack 基准 测试 程序 的 内 部 循环 ; 
DAXPY 下 是 double precision a x 革 plus 了 的 缩写 。) 假设 XX 和 了 的 起 始 地 址 分 别 存 放 在 x19 
和 x20 中 。 
| 答案 | DAXPY 的 传统 RISC-V 代码 是 : 


fl1d 0 二 C33 // load scalar a 
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addi pS i hd wt array X 


lowmpe Fld Tl ORLQY A iad LT 
Fmd Fl, Es FO 用 国 
f1d f25 Q(x20) A Toad vtEi] 
faddatd Te Te, fl se mal sm] 
fsd fT2, Q(X20) /Yt Stonre LT] 
addi X19 Xl9 a // increment index to x 


addi A ol // increment index to y 
bltu x19, x5, lo0p // reéepeat, if not done 


DAXPY 的 假想 向 量 RISC-V 代码 是 : 


fid 3 // load scalar a 

Td v0, Q(XxL9) // load vector x 
mal ed vs VO VO, 0 // vector-scalar multiply 
fld.v vy (X20 // load vector y 

fadd.d.y a // vector-vector add 
fsd.v Vl "QRZ0Y // store vector y 








在 上 面 的 例题 中 ， 两 个 代码 段 之 间 存 在 一 些 有 趣 的 对 比 。 最 引 人 注 目的 是 ， 向 量 处 理 器 
大 大 降低 了 动态 指令 带宽 。 传 统 的 RISC-V 指令 体系 结构 需要 执行 500 条 指令 ， 相 比 之 下 ， 
向 量 RISC-V 只 需要 执行 6 条 指令 就 完成 了 工作 。 这 种 减少 是 因为 一 次 向 量 操作 可 以 处 理 
64 个 数据 元 ， 并 且 在 RISC-V 指令 体系 结构 中 近 一 半 的 循环 开销 指令 在 向 量 代码 中 无 须 存 
在 。 如 你 所 料 ， 指 令 取 指 和 执行 次 数 的 减少 的 确 可 以 节省 能 耗 。 

另 一 个 重要 的 区 别 是 顽 张 到 冒险 ( 见 第 4 章 ) 的 频率 不 同 。 在 传统 的 RISC-V 代码 中 ， 
每 个 fadd.d 指令 必须 等 待 fmul.d 指令 完成 ， 每 个 fsd 指令 必须 等 待 fadd.d 指令 完 
成 ， 而 且 每 个 fadd.d 指令 和 fmul.d 指令 还 必须 等 待 f1d 指令 完成 。 在 向 量 处 理 器 中 ， 
每 个 向 量 指令 只 会 停顿 每 个 向 量 中 的 第 一 个 数据 元 ， 然 后 后 续 数 据 元 将 顺利 地 沿 着 流水 线 流 
动 。 因 此 ， 每 个 向 量 操作 仅 需 要 一 次 流水 线 停 顿 ， 而 不 是 每 个 数据 元 都 会 停顿 一 次 。 在 本 例 
题 中 ， 传 统 RISC-V 的 流水 线 停顿 频率 将 是 向 量 RISC-V 版 本 的 约 64 倍 。 通 过 循环 展开 可 以 
消除 传统 RISC-V 上 的 流水 线 停顿 ( 见 第 4 章 )。 但 是 ， 指 令 带宽 的 巨大 差异 依然 不 能 减少 。 

因为 向 量 中 的 各 数据 元 是 相互 独立 的 ， 因 此 它们 可 以 并 行 操 作 ， 这 非常 类 似 于 Intel x86 
AVX 指令 中 的 子 字 并 行 。 所 有 现代 向 量 计算 机 都 具有 向 量 功能 单元 ， 该 单元 具有 多 个 并 行 流 
水 线 (我 们 称 为 向 量 通道 ， 见 图 6-2 和 图 6-3 )， 每 个 时 钟 周 期 可 计算 出 两 个 或 更 多 的 结果 。 

器 顷 两 洒 | 在 上 面 的 例题 中 ， 循 环 次 数 与 向 量 的 长 度 恰好 相等 。 当 循环 次 数 更 小 时 ， 向 
量 体 系 结构 可 以 使 用 寄存 器 来 减少 向 量 操作 的 长 度 。 当 循环 次 数 更 大 时 ， 我 们 可 以 添加 循环 
标记 代码 来 进行 全 长 度 的 向 量 循环 操作 ， 最 后 处 理 剩 余部 分 。 后 一 处 理 过 程 称 为 循环 切 分 


(strip mining/loop sectioning ) 。 


6.3.3 ”向量 与 标量 


与 传统 指令 系统 体系 结构 (在 本 节 中 被 称 为 标量 体系 结构 ) 相 比 ， 向 量 指令 具有 几 个 重 
要 的 属性 : 
。 单个 向 量 指令 指定 了 大 量 工作 一 一 相当 于 执行 了 完整 的 循环 。 正 因为 这 样 ， 指 令 取 指 
和 译 码 带宽 大 大 减少 。 
。 通过 使 用 向 量 指令 ， 编 译 器 或 程序 员 确认 了 向 量 中 的 每 个 结果 都 是 独立 的 ， 因 此 硬件 





江 存 处理 器 : 从 客户 缆 到 云 357 





无 须 再 检查 向 量 指令 内 的 数据 冒险 。 
当 程序 中 存在 数据 级 并 行 时 ， 相 比 使 用 MIMD 多 处 理 器 ， 使 用 向 量 体 系 结构 和 编译 
器 的 组 合 更 容易 写 出 高 效 的 应 用 程序 。 
硬件 只 需要 在 两 条 向 量 指令 之 间 检 查 向 量 操作 数 之 间 的 数据 冒险 ， 而 无 须 检查 向 量 中 
的 每 个 数据 元 。 减 少 检查 的 次 数 可 以 节省 能 耗 和 时 间 。 
访问 存储 髓 的 向 量 指令 具有 确定 的 访问 模式 。 如 果 向 量 中 的 数据 元 位 置 都 是 连续 的 ， 
则 可 以 从 一 组 存储 器 中 交叉 访问 数据 块 ， 从 而 快速 获取 向 量 。 因 此 ， 对 整个 向 量 而 
言 ， 主 存储 融 的 延迟 开销 看 上 去 只 有 一 次 ， 而 不 是 对 向 量 中 的 每 个 字 都 产生 一 次 。 
因为 整个 循环 被 具有 已 知行 为 的 向 量 指令 所 取代 ， 所 以 通常 由 循环 引发 的 控制 冒险 不 
再 存在 。 
与 标量 体系 结构 相 比 ， 节 省 的 指令 带宽 和 冒险 检查 以 及 对 存储 器 带宽 的 有 效 利用 ， 使 
得 向 量 体 系 结构 在 功 耗 和 能 耗 方面 更 具有 优势 。 

综 上 所 述 ， 在 同等 数据 量 的 前 提 下 ， 向 量 操作 可 以 比 一 组 标量 操作 序列 更 快 地 完成 。 如 
果 应 用 程序 当中 经 常 使 用 这 些 向 量 操作 ， 设 计 者 将 更 有 动力 在 设计 中 加 入 向 量 单元 。 


6.3.4 向 量 与 多 媒体 扩展 


与 x86 AVX 指令 中 的 多 媒体 扩展 类 似 ， 向 量 指 令 也 指定 了 多 种 操作 。 但 是 多 媒体 扩展 
通常 只 能 表示 几 种 操作 ， 而 向 量 指令 可 以 指定 几 十 种 操作 。 与 多 媒体 扩展 不 同 ， 向 量 操作 中 
数据 元 的 数量 不 存放 在 操作 码 中 ， 而 是 存放 一 个 在 单独 的 寄存 器 中 。 这 种 区 别 意味 着 仅 通过 
改变 该 寄存 器 的 内 容 就 可 以 用 不 同 数量 的 数据 元 实现 不 同 版 本 的 向 量 体 系 结构 ， 从 而 保持 二 
进 制 代 码 的 兼容 性 。 与 之 相反 ， 在 x86 的 MMX、SSE、SSE2 、AVX、AVX2 等 多 媒体 扩展 中 ， 
每 当 向 量 长 度 变 化 时 ， 就 需要 添加 一 组 新 的 指令 操作 码 。 

还 有 一 点 ， 与 多 媒体 扩展 不 同 ， 向 量 的 数据 传输 不 需要 是 连续 的 。 向 量 支 持 步 长 访问 
( strided access) 和 索引 访问 ( indexed access)， 前 者 是 在 存储 器 中 每 隔 n 个 数据 元 加 载 一 次 
数据 ， 后 者 是 按照 数据 项 的 地 址 将 数据 加 载 到 向 量 寄存 器 中 。 索 引 访问 也 称 为 聚集 - 分 散 
(gather-scatter)， 因 为 索引 加 载 从 主 存 将 数据 元 收集 为 连续 的 向 量 元 素 ， 而 索引 存储 将 向 量 元 
素 分 散 至 内 存 中 。 

与 多 媒体 扩展 类 似 ， 向 量 体 系 结构 可 以 灵活 支持 不 同 的 数据 宽度 ， 因 此 可 以 使 向 量 操作 
工作 在 32 个 64 位 数据 元 、64 个 32 位 数据 元 、128 个 16 位 数据 元 或 者 256 个 8 位 数据 元 上 。 
向 量 指 令 的 并 行 特性 可 以 使 其 采用 深度 敬 水 的 功能 单元 、 并 行 功能 单元 阵列 或 者 并 行 功能 单 
元 与 流水 功能 单元 的 组 合 来 执行 这 些 操 作 。 图 6-3 说 明了 如 何 通 过 使 用 并 行 流 水 线 执行 向 量 
加 法 指令 来 提高 向 量 的 性 能 。 

癌 量 算术 指令 通常 仅 允许 一 个 向 量 寄存 器 的 元 素 N 与 其 他 向 量 寄存 器 的 元 素 N 进行 交 
互 。 这 极 大 地 简化 了 高 度 平行 的 向 量 单元 的 构造 可 构造 为 多 个 平行 的 向 量 通道 ( vector 
lane)。 与 高 速 公 路 一 样 ， 我 们 可 以 通过 添加 更 多 车 道 来 增加 向 量 单 
元 的 峰值 吞吐 量 。 图 6-4 是 一 个 四 通道 向 量 单元 的 结构 图 。 将 一 通 ”| 向 量 通道 : 一 个 或 多 个 向 
道 增加 为 四 通道 可 以 使 得 每 个 向 量 指令 的 时 钟 周期 数 大 约 减少 为 原 | 计生 人 人 
来 的 14。 为 了 能 够 利用 多 通道 ， 应 用 程序 和 体系 结构 都 必须 支持 长 “| 的 多 车 道 扫 襄 交 通 吉 度 的 
向 量 。 和 否则 ， 指 令 将 很 快 执行 完毕 以 至 于 没有 足够 的 新 指令 可 以 被 | 启发 ， 利 用 多 个 通道 同时 
执行 ， 第 4 章 中 的 指令 级 医 符 技术 可 以 提供 足够 的 向 量 指令 。 执行 向 量 操作 。 
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图 6-3 ”使 用 多 个 功能 单元 来 提高 单个 向 量 加 法 指令 C=A+B 的 性 能 。 左 侧 的 向 量 处 理 器 (a) 
只 有 单个 加 法 流水 线 ， 每 个 周期 可 以 完成 一 次 加 法 。 右 侧 的 向 量 处 理 器 (b) 有 四 个 
加 法 流水 线 ， 每 个 周期 可 以 完成 四 次 加 法 。 单 个 向 量 加 法 指令 中 的 数据 元 被 分 散在 
四 个 通道 中 


通道 0 通道 1 通道 2 通道 3 





图 6-4 包含 四 个 通道 的 向 量 单元 的 结构 图 。 向 量 寄存 器 内 存 等 量 地 分 配给 每 个 通道 ， 每 个 
向 量 寄 存 器 中 的 数据 元 依次 分 配给 每 个 通道 。 图 中 画 出 了 三 个 向 量 功能 单元 : 浮 点 
加 法 单元 、 浮 点 乘法 单元 和 存 取 单 元 。 每 个 向 量 运算 单元 包含 四 个 执行 流水 线 ， 每 
个 通道 一 个 ， 它 们 协同 工作 以 完成 单个 向 量 指令 。 请 注意 向 量 寄存 器 堆 的 每 个 部 分 
是 如 何 只 为 其 对 应 通道 的 功能 单元 提供 足够 的 读 写 端口 的 ( 见 第 4 章 ) 


总 的 来 说 ,向 量 体 系 结构 是 执行 数据 并 行 处 理 程序 的 一 种 非常 有 效 的 方法 。 与 多 媒体 扩 
展 相 比 ， 向 量 体 系 结构 更 适合 编译 器 技术 ， 而 且 随 着 时 间 的 推移 ， 向 量 体 系 结构 比 x86 体系 
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结构 的 多 媒体 扩展 更 容易 进行 改进 。 

给 出 这 些 经 典 分 类 后 ， 接 下 来 我 们 将 了 解 如 何 利用 指令 的 并 行 流 来 提高 单个 处 理 器 的 性 
能 ， 我 们 还 会 将 该 方法 应 用 到 多 处 理 器 中 。 

[说 细 阅 述 ) 阮 然 向 量 体 系 结构 有 这 么 多 优点 ， 为 什么 还 没有 在 除 高 性 能 计算 之 外 的 令 
域 流 行 呢 ? 主要 原因 是 担心 向 量 寄存 器 的 巨大 状态 会 增加 上 下 文 切换 时 间 ， 以 及 加 大 处 理 向 
量 加 载 和 存储 中 的 页 错误 的 难度 ， 并 且 SIMD 指令 已 经 实现 了 向 量 指令 的 部 分 优点 。 此 外 ， 
只 要 指令 级 并 行 的 进步 可 以 提供 蕊 陀 咱 竺 所 需 的 性 能 提升 ， 就 没有 理由 去 改变 体系 结构 的 
类 型 。 

[说 珊 阐 还 ”向量 和 多 媒体 扩展 的 另 一 个 优点 是 ， 向 量 指令 系统 体系 结构 的 扩展 相对 容 
易 ， 可 以 提高 数据 并 行 操作 的 性 能 。 

| 详细 阐述 Intel 的 Haswell x86 处 理 器 支持 AVX2 指令 系统 ， 该 指令 系统 只 有 聚集 操作 
而 没有 分 散 操作 。 











6.4 硬件 多 线程 


从 程序 员 的 角度 来 看 ， 硬 件 多 线程 (hardware mnultithreading ) | 硬件 多 线程 通过 在 一 个 线 
是 与 MIMD 相关 的 一 个 概念 。MIMD 依赖 于 多 个 进程 (process) 或 | 程 停顿 时 切换 到 另 一 个 线 
线程 (thread) 使 得 多 个 处 理 器 保持 忙碌 状态 ， 而 硬件 多 线程 允许 多 | 程 坟 提高 处 理 器 的 利用 章 。 
个 线程 以 重 倒 的 方式 共享 单个 处 理 右 的 功能 单元 ， 以 有 效 地 利用 硬 
件 资 源 。 为 了 支持 这 种 共享 ， 处 理 器 必须 复制 每 个 线程 的 独立 状态 。 
例如 ， 每 个 线程 都 有 一 个 寄存 器 堆 和 程序 计数 器 的 独立 副本 。 内 存 
本 身 可 以 通过 虚拟 内 存 机 制 实现 共享 ， 在 多 道 程序 编程 中 已 经 支持 
了 这 种 方法 。 此 外 ， 硬 件 必 须 具 有 在 线程 之 间 快 速 切换 的 能 力 。 特 
别 是 ， 线 程 切 换 应 该 比 进程 切换 更 加 有 效 ， 线 程 切换 可 以 是 瞬时 切 
换 ， 而 进程 切换 通常 需要 数 百 到 数 千 个 处 理 器 周期 。 

硬件 多 线程 主要 有 两 种 实现 方法 。 细 粒度 多 线程 (fine-grained 


线程 : 包括 程序 计数 器 、 
寄存 器 状态 和 栈 。 线 程 是 
一 个 轻 量 级 的 进程 ， 线 程 
通常 共享 一 个 地 址 空间 ， 
而 进程 则 不 共享 。 


进程 : 包括 一 个 或 多 个 线 
程 、 完 整 的 地 址 空间 和 操 
作 系 统 状态 。 因 此 ， 进 程 


SR 的 切换 通常 需要 调用 操 
multithreading) 在 每 条 指令 执行 后 进行 线程 切换 ， 导 致 了 多 线程 的 作 系 统 ， 而 线程 切换 则 
交叉 执行 。 这 种 交叉 执行 通常 以 一 种 轮转 方式 完成 ， 并 跳 过 在 该 时 | 不 用 。 


钟 周 期 停顿 的 任何 线程 。 为 了 实现 细 粒 度 多 线程 ， 处 理 器 必须 能 够 

在 每 个 时 钟 周 期 切换 线程 。 细 粒度 多 线程 的 一 个 优点 是 可 以 隐藏 由 打 和 这 学 国 各 | 人 

短期 和 长 期 停顿 引起 的 吞吐 量 损失 ， 因 为 当 一 个 线程 停顿 时 可 以 执 。| 人。 

行 来 自 其 他 线程 的 指令 。 细 粒度 多 线程 的 主要 缺点 是 会 减 慢 单个 线 

程 的 执行 速度 ， 因 为 已 经 就 绪 的 线程 会 因为 执行 其 他 线程 的 指令 粗 粒度 多 线程 : 硬件 多 线 

延迟 。 程 的 另 一 种 版 本 ， 仅 在 重 
粗 粒 度 多 线程 ( coarse-grained multithreading) 是 作为 细 粒 度 多 di gag 

线程 的 另 一 种 可 选项 被 发 明 的 。 粗 粒度 多 线程 仅 在 高 开销 的 停顿 上 

切换 线程 ， 例 如 末 级 cache 失效 时 。 这 种 改变 降低 了 高 速 切换 线程 的 要 求 ， 并 且 几 乎 不 会 减 
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慢 单 个 线程 的 执行 速度 ， 因 为 只 有 在 线程 遇 到 高 开销 的 停顿 时 才 会 发 射 来 自 其 他 线程 的 指 
令 。 然 而 ， 粗 粒度 多 线程 有 一 个 严重 缺点 : 降低 吞吐 量 损失 的 能 力 有 限 ， 尤 其 是 对 于 短 停顿 。 
这 种 限制 源 于 粗 粒 度 多 线程 的 咽 走 线 启 动 开销 。 因 为 粗 粒度 多 线程 处 理 器 从 单个 线程 发 出 指 
令 ， 所 以 当 发 生 停顿 时 ， 必 须 清空 或 冻结 流水 线 。 在 停顿 之 后 开始 执行 的 新 线程 必须 在 导致 
停顿 的 指令 能 够 完成 之 前 填充 流水 线 。 由 于 这 种 启动 开销 ， 粗 粒度 多 线程 对 于 降低 高 成 本 停顿 
的 损失 更 为 有 用 ， 因 为 在 这 种 情况 下 ， 流 水 线 重 新 填充 的 时 间 与 停顿 时 间 相 比 可 以 忽略 不 计 。 

同时 多 线程 ( Simultaneous Multithreading，SMT) 是 硬件 多 线程 的 一 种 变 体 ， 它 使 用 多 
发 射 、 动 态 调 度 流 水 线 的 处 理 器 资源 来 挖掘 线程 级 并 行 和 指令 级 并 
行 ( 见 第 4 章 )。 提 出 SMT 的 主要 原因 是 ， 多 发 射 处 理 器 中 通常 具 同时 多 线程 : 多 线程 的 一 
有 大 多 数 单线 程 难以 充分 利用 的 并 行 功能 单元 。 此 外 ， 通 过 寄存 器 | 个 全 i 不 
重 命名 和 动态 调度 ( 见 第 4 章 )， 可 以 发 出 来 自 相 互 独立 的 多 线程 的 构 的 资源 来 降低 多 线程 的 
多 条 指令 ， 而 不 需要 考虑 它们 之 间 的 依赖 关系 ; 可 以 通过 动态 调度 | 成 本 。 

能 力 来 解决 相关 性 的 问题 。 

因为 SMT 依赖 于 现 有 的 动态 机 制 ， 因 此 它 不 会 在 每 个 时 钟 周 期 切换 资源 。 相 反 ，SMT 
始终 执行 来 自 多 个 线程 的 指令 ， 将 资源 分 配 交 给 硬件 完成 ， 这 些 资源 是 指令 权 和 重 命名 寄 
存 器 。 

图 6-5 概念 性 地 说 明了 在 不 同 的 处 理 器 配置 下 对 超标 量 资源 利用 能 力 的 差别 。 上 半 部 分 
展示 了 四 个 线程 如 何在 不 支持 多 线程 的 超标 量 处 理 器 上 独立 执行 。 下 半 部 分 展示 了 三 个 不 同 
的 多 线程 选项 下 ， 四 个 线程 如 何 组 合 以 在 单个 处 理 器 上 更 高 效 地 执行 。 这 三 个 选项 是 : 

e 支持 粗 粒 度 多 线程 的 超标 量 

e 文 持 细 粒 度 多 线程 的 超标 量 

e 支持 同时 多 线程 的 超标 量 

在 不 支持 硬件 多 线程 的 超标 量 处 理 器 中 ， 发 射 槽 的 使 用 受到 指令 级 器 符 的 限制 。 此 外 ， 
诸如 指令 cache 失效 之 类 的 绝 大 多 数 停 顿 ， 都 可 能 使 整个 处 理 器 处 于 空闲 状态 。 

在 粗 粒 度 多 线程 超标 量 处 理 需 中 ， 通 过 切换 到 使 用 该 处 理 需 资源 的 另 一 个 线程 ， 可 以 部 
分 隐藏 长 停顿 。 尽 管 这 样 做 可 以 减少 完全 空闲 的 时 钟 周期 的 数量 ,但 是 流水 线 的 启动 开销 依 
然 会 带 来 空闲 的 时 钟 周期 ， 并 且 ILP 的 限制 意味 着 并 非 所 有 的 发 射 槽 都 能 得 到 充分 利用 。 在 
细 粒 度 多 线程 的 情况 下 ， 线 程 的 交叉 执行 可 以 基本 消除 空闲 的 时 钟 周期 。 但 是 ， 由 于 在 给 定 
的 时 钟 周 期 内 只 有 一 个 线程 发 出 指令 ， 因 此 指令 级 并 行 的 限制 仍 会 导致 某 些 时 钟 周期 内 出 现 
空闲 的 发 射 槽 。 

在 SMT 中 ， 线 程 级 并 行 和 指令 级 并 行 都 得 到 了 充分 利用 ， 多 个 线程 在 单个 时 钟 周期 中 
使 用 发 射 槽 。 理 想 情 况 下 ， 发 射 槽 的 使 用 仅 受 到 多 个 线程 之 间 资 源 需 求 不 平衡 和 资源 可 用 
性 的 限制 。 实 际 上 ， 还 有 其 他 因素 可 能 会 限制 使 用 的 发 射 槽 的 数量 。 虽 然 图 6-5 大 大 简化 了 
这 些 处 理 器 的 实际 操作 ， 但 是 它 确实 说 明了 多 线程 在 一 般 情况 下 的 潜在 性 能 优势 ， 特 别 是 
SMT。 

图 6-6 给 出 了 Intel Core i7 960 单 处 理 器 上 多 线程 的 性 能 和 能 耗 优 势 ， 该 处 理 器 的 硬件 
支持 两 个 线程 。 平 均 加 速 比 为 1.31， 这 对 于 有 少量 额外 资源 执行 硬件 多 线程 的 情况 来 说 不 算 
坏 。 平 均 能 耗 提高 1.07， 这 非常 好 。 总 之 ， 在 能 耗 基 本 不 变 的 前 提 下 获得 性 能 提升 是 使 人 感 
到 高 兴 的 。 
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示 了 如 何在 不 支持 多 线程 的 标准 超标 量 处 理 器 上 单独 执行 每 个 线程 。 下 半 部 分 的 三 
个 示例 分 别 显示 了 在 三 个 多 线程 选项 中 它们 是 如 何 一 起 执行 的 。 水 平 维度 表示 每 个 
时 钟 周期 中 的 指令 发 射 能 力 。 垂 直 维 度 表 示 一 系列 时 钟 周期 。 空 白 的 位 置 表示 在 该 
时 钟 周期 中 未 使 用 的 相应 发 射 槽 。 灰 色 阴 影 对 应 于 多 线程 处 理 器 中 的 四 个 不 同 线程 。 
粗 粒 度 多 线程 的 额外 流水 线 启动 损失 (在 图 中 未 画 出 ) 将 导致 粗 粒度 多 线程 的 吞吐 
量 产生 进一步 损失 
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图 6-6 在 i7 处 理 器 的 一 个 核心 上 对 PARSEC 基准 测试 程序 ( 见 6.9 节 ) 使 用 多 线程 的 平均 加 
速 比 为 1.31， 能 效 改善 比例 为 1.07。Esmaeilzadeh 等 人 收集 并 分 析 了 这 些 数据 [2011] 





现在 我 们 已 经 看 到 如 何 通过 多 个 线程 更 有 效 地 利用 单个 处 理 顺 的 资源 ， 接 下 来 我 们 将 看 
到 如 何 通过 多 线程 来 利用 多 处 理 器 的 资源 。 
ni 








线程 来 提高 动态 调度 乱 序 处 理 器 的 资源 利用 率 。 


6.5 多核 及 其 他 共享 内 存 多 处 理 器 


尽管 硬件 多 线程 已 经 用 很 小 的 代价 提升 了 处理 器 效率 ,但 是 在 过 去 的 十 几 年 中 ,一 个 巨 
大 的 挑战 是 : 如 何 通过 有 效 地 编程 来 利用 单个 芯片 上 数量 不 断 增长 的 处 理 器 ， 以 发 挥 出 说 尔 
定律 呈现 出 的 性 能 潜力 。 

考虑 到 重 写 旧 程 序 使 其 能 在 并 行 硬件 上 良好 运行 是 困难 的 ， 一 个 自然 的 问题 是 : 计算 机 
设计 者 该 如 何 简化 该 任务 ”一 种 方法 是 为 所 有 处 理 器 提供 一 个 共享 的 统一 物理 地 址 空间 ， 使 
得 程序 无 须 考 虑 数据 的 存放 位 置 ， 只 需 考虑 如 何 并 行 执行 。 在 这 种 方法 中 ， 程 序 的 所 有 变量 
对 其 他 任何 处 理 器 都 是 随时 可 见 的 。 另 一 种 方法 是 每 个 处 理 器 采用 独立 的 地 址 空间 ， 这 就 
必须 进行 显 式 共享 ， 我 们 将 在 6.7 节 描 述 这 种 情况 。 当 共享 物理 地 址 空间 时 ， 硬 件 通常 提供 
cache 一 致 性 ， 以 保证 共享 内 存 的 一 致 性 ( 见 5.8 节 )。 

如 上 所 述 ， 共 享 内 存 多 处 理 器 (SMP) 为 所 有 处 理 器 提供 统一 物理 地 址 空间 对 多 核 
芯片 几乎 总 是 如 此 一 一 尽管 更 准确 的 术语 是 共享 地 址 多 处 理 器 。 处 理 器 通过 存储 器 中 的 共享 
变量 进行 通信 ， 所 有 处 理 器 都 能 够 通过 加 载 和 存储 指令 访问 任意 存储 器 位 置 。 图 6-7 是 SMP 
的 典型 结构 a 请 注意 ， 即 使 这 些 系统 共享 物理 地 址 空间 ， 它 们 仍 可 在 自己 的 虚拟 地 址 空间 中 
运行 独立 程序 。 


从 芯片 中 获得 更 高 的 效率 。 
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图 6-7 一 个 共享 内 存 多 处 理 右 的 典型 结构 


单 地 址 空间 多 处 理 器 有 两 种 类 型 。 在 第 一 种 类 型 中 ， 访 存 延迟 “| 统一 内 存 访问 : 一 种 多 处 
不 依赖 于 是 哪个 处 理 器 提出 的 请 求 。 这 种 机 器 称 为 统一 内 存 访问 “| 理 器 ， 无 论 哪个 处 理 器 访 
(UMA) 多 处 理 器 。 在 第 二 种 类 型 中 ， 一 些 存储 器 的 访问 会 比 其 他 存 | 人 
储 器 快 很 多 ， 这 取决 于 是 哪个 处 理 器 访问 哪个 存储 。 这 通常 是 因为 

主 存储 器 被 划分 ， 并 分 配给 不 同 的 微 处 理 器 或 同一 芯片 上 的 不 同 内 “| 非 统 一 内 存 访问 : 一 种 单 
存 控制 器 。 这 种 机 器 称 为 非 统一 内 存 访问 (NUMA) 多 处 理 器 。 如 ”| 地 址 空间 多 处 理 器 ， 存 储 
你 所 料 , NUMA 多 处 理 器 的 编程 难度 高 于 UMA 多 处 理 器 ， 但 | 器 的 访问 延 退 各 不 相同 ， 


具体 取决 于 哪个 处 理 器 访 
NUMA 机 器 可 以 扩展 到 更 大 规模 ， 并 且 NUMA 在 访问 附近 的 内 存 | 问 哪个 存储 。 
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时 具有 较 低 的 延迟 。 

处 理 器 并 行 执行 时 通常 需要 共享 数据 ， 因 此 在 操作 共享 数据 “| 同步 : 协调 两 个 或 多 个 进 
时 需要 进行 协调 ; 否则 ， 一 个 处 理 器 可 能 会 在 另 一 个 处 理 器 还 没有 | 程 行为 的 过 程 ， 这 些 进程 
对 共享 数据 完成 操作 之 前 就 开始 处 理 该 数据 。 这 种 协调 被 称 为 同步 “| 可 能 在 不 同 的 处 理 器 上 运 
( synchronization)， 我 们 在 第 2 章 中 讨论 过 。 当 统一 地 址 空间 支持 共 
享 时 ， 必 须 提供 一 套 独立 的 同步 机 制 。 一 种 方法 是 为 共享 变量 提供 “| 锁 ，_ 种 同步 机 制 ， 同 一 
锁 (lock)。 同 一 时 刻 只 能 有 一 个 处 理 器 可 以 获得 锁 ， 其 他 想 要 操作 | 时 刻 仅 允 许 一 个 处 理 器 访 
共享 数据 的 处 理 器 必须 等 待 ， 直 到 该 处 理 器 解锁 共享 变量 为 止 。2.11 | 问 数 据 。 
节 描 述 了 RISC-V 中 关于 锁 操 作 的 指令 。 


| 例题 | 一 个 共享 地 址 空间 的 简单 并 行 处 理 程序 

现在 假设 我 们 要 使 用 一 台 具 有 统一 内 存 访 问 时 间 的 共享 内 存 多 处 理 器 计算 机 ， 对 64 000 
个 数字 求 和 。 假 设 该 计算 机 有 64 个 处 理 器 。 
| 答案 | 首先 需要 确保 每 个 处 理 器 负载 均衡 ， 因 此 我 们 先 将 这 组 数字 划分 为 相同 大 小 的 子 集 。 
我 们 不 能 将 这 些 子 集 分 配 至 不 同 的 内 存 空间 ， 因 为 这 台 计 算 机 只 有 一 个 统一 内 存 空间 ; 我 们 
只 为 每 个 处 理 器 提供 不 同 的 起 始 地 址 。Pn 为 处 理 器 的 编号 ， 介 于 0 至 63 之 间 。 所 有 处 理 器 
通过 运行 一 个 循环 程序 来 对 其 数字 子 集 求 和 : 

sum[Pn] = 0; 

for (i = 1000*Pn; i < 1000*(Pn+1); i1 += 1) 

sum[Pn] += A[i]; /*sum the assigned areas*/ 

(注意 , 在 C 语 言 中 ，i+=1 是 i=i+1 的 简写 形式 。) 
下 一 步 是 将 这 64 个 子 集 的 和 继续 求 和 。 这 一 步 称 为 归 约 (reduction)， 归 约 : 一 种 处 理 数据 结构 
我 们 采用 分 治 的 方式 求 和 。 首 先 ，1/2 的 处 理 器 将 成 对 的 子 集 和 做 ”| 并 返回 单个 值 的 函数 。 
求 和 ,之 后 1/4 的 处 理 器 继续 将 成 对 的 新 子 集 和 做 求 和 ， 以 此 类 推 ， 
直到 得 到 一 个 最 终 的 总 和 。 图 6-8 说 明了 本 次 归 约 的 层次 结构 。 








图 6-8 ”对 每 个 处 理 器 上 的 数据 进行 求 和 的 归 约 过 程 的 最 后 四 级 结构 ， 归 约 过 程 自 下 向 上 进 
行 。 对 于 所 有 编号 i 小 于 half 的 处 理 器 ， 将 编号 为 〈(i+half) 的 处 理 器 中 产生 的 
和 加 到 该 处 理 带 上 


在 本 例 中 ,在 “消费 者 ”处 理 需 试图 从 “生产 者 ”处 理 器 上 读 取 结 果 之 前 必须 进行 同步 。 
否则 ,“ 消 费 者 ”可 能 会 读 取 到 数据 的 旧 值 。 我 们 希望 每 个 处 理 器 都 拥有 自己 的 循环 变量 i， 
因此 需要 指出 i 是 一 个 “私有 ”变量 。 以 下 是 相应 的 代码 (half 也 是 私有 变量 ): 


half = 64; /*64 processors in multiprocessor*/ 
do 
synch(); /*wait for partial sum completion*/ 


if (half%2 != 0 && Pn == 0) 
sum[0] += sum[half-1]; 
/*Conditional sum needed when ‘half is 
odd; Processor0 gets missing element */ 
half = half/2; /*dividing line on who sums */ 
if (Pn < half) sum[Pn] += sum[Pn+half]; 
while (half > 1); /*exit with final sum in Sum[0] */ 








| 醒 俩 出 光 位 搂 回 | 由于 人 们 长 久 以 来 对 并 行 编程 都 有 着 浓厚 的 ”| OpenMP : 一 套 支持 共享 
兴趣 ， 迄 今 为 止 已 经 出 现 了 数 百 次 构建 并 行 编程 系统 的 党 试 。 一 内 存 多 处 理 的 API， 它 在 
ee 它 只 是 一 个 应 用 程序 编程 接口 re ph 
(Application Programmer Interface，API)， 带 有 一 组 可 以 对 标准 编程 et 
语言 进行 扩展 的 编译 器 制导 、 环 境 变量 和 运行 时 库 。 它 为 共享 内 存 | 导 、 库 和 运行 时 指导 。 
多 处 理 器 提供 了 可 移植 、 可 扩展 且 简 单 的 编程 模型 。 它 最 初 的 目标 
是 循环 并 行 化 并 进行 归 约 。 

大 多 数 的 C 语言 编译 器 已 经 支持 OpenMP。 在 UNIX C 编译 器 上 使 用 OpenMP API 的 指 
令 是 : 
cc -fopenmp foo.c 


OpenMP 使 用 编译 制导 对 C 语言 进行 扩展 ， 编 译 制导 就 是 C 宏 指令 ， 如 #define 和 
#include。 如 上 例 所 示 ， 如 果 要 将 处 理 器 数量 设置 为 64， 需 要 使 用 如 下 命令 : 


#define P 64 /* define a constant that we’ll use a few times */ 
#pragma omp parallel num_threads(P) 


这 些 指 令 表明 ， 运行 时 库 应 该 使 用 64 个 并 行 线 程 。 
为 了 将 顺序 for 循环 转换 为 并 行 for 循环 (通过 该 循环 在 所 有 线程 之 间 平 均 分 配 任务 )， 只 需 
将 代码 写 为 如 下 形式 (假设 Sum 初始 化 为 0 ): 
jpragma omp parallel for 
For CPh = Os Pm py Pi dm 1 
ror (1 = De LODOAPRs 1 % OOO0m(CPNEL)s 1 4= 1 
sum[Pn] += A[i]; /*sum the assigned areas*/ 
要 进行 归 约 ， 可 以 使 用 另 一 个 命令 告诉 OpenMP 归 约 运算 符 是 什么 ， 以 及 需要 使 用 哪 
个 变量 来 放置 归 约 的 结果 。 


#pragma omp parallel for reduction(+ : FinalSum) 
for AL ss 1 
FinalSum += sum[i]; /* Reduce to a single number */ 

注意 ， 从 现在 开始 需要 由 OpenMP 库 来 查找 使 用 64 个 处 理 器 对 64 个 数字 进行 求 和 的 效率 最 
高 的 代码 。 

尽管 使 用 OpenMP 可 以 使 基本 并 行 代码 的 编写 变 得 简单 ， 但 它 并 不 能 对 调试 起 到 帮助 ， 
因此 许多 程序 员 在 使 用 比 OpenMP 更 加 复杂 的 并 行 编程 系统 ， 正 如 今天 许多 程序 员 在 使 用 比 

C 语言 更 加 高 效 的 编程 语言 那样 。 

现在 我 们 已 经 了 解 了 经 典 的 MIMD 硬件 和 软件 ， 接 下 来 我 们 将 探索 更 新 奇 的 MIMD 架 
构 ， 它 继承 于 为 一 体系 结构 ， 也 因此 在 另 一 个 方向 上 对 并 行 编程 提出 了 挑战 。 

| 详细 阐述 一些 作者 将 SMP 作为 对 称 多 处 理 器 (symmetric multiprocessor) 的 缩 略 词 ， 
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以 说 明 对 所 有 处 理 器 而 言 ， 访 问 存储 器 的 时 延 都 大 致 相 同 。 这 种 转变 是 为 了 与 大 规模 NUMA 
多 处 理 器 做 区 分 ， 因 为 这 两 者 都 使 用 统一 地 址 空间 。 由 于 集群 比 大 规模 NUMA 多 处 理 器 更 
为 常见 ， 因 此 在 本 书 中 我 们 将 SMP 恢复 为 其 原始 含义 ( 即 共享 内 存 多 处 理 器 )， 并 将 其 与 使 
用 多 个 地 址 空间 的 集群 进行 对 比 。 

| 详 玛 阔 玉 | 共享 物理 地 址 空间 的 一 种 替代 方案 是 : 使 用 独立 的 物理 地 址 空间 ， 但 共享 一 
个 公共 的 虚拟 地 址 空间 ， 由 操作 系统 负责 处 理 通信 。 这 种 方法 已 经 被 尝试 过 ,但 是 需要 非常 
大 的 开销 ， 以 至 于 不 能 为 注重 性 能 的 程序 员 提 供 一 个 实际 可 用 的 共享 内 存 抽 象 。 





险 测 判断 题 ， 共 享 内 存 多 处 理 器 无 法 利用 任务 级 并 行 。 


6.6 GPU 简介 


最 初 将 SIMD 指令 添加 到 现 有 体系 结构 中 的 理由 是 : 许多 微 处 理 器 被 用 于 PC 和 工作 站 
中 的 图 形 显示 器 上 ， 以 至 于 越 来 越 多 的 处 理 时 间 被 用 于 图 形 上 。 随 着 处 理 器 上 的 晶体 管 数量 
根据 履 绿 定律 持续 增长 ， 改 进 图 形 处 理 效率 逐渐 成 为 一 个 值得 研究 的 问题 。 

改进 图 形 处 理 的 主要 驱动 力 来 自 计 算 机 游戏 行业 ， 包 括 PC 和 索尼 PlayStation 等 专用 游 
戏 主机 。 快 速 增长 的 游戏 市 场 鼓励 许多 公司 加 大 了 在 开发 更 快速 的 图 形 硬 件 上 的 投资 ,这 种 
正 反馈 使 得 图 形 处 理 的 改进 速度 比 主流 微 处 理 器 中 的 通用 处 理 快 得 多 。 

由 于 图 形 和 游戏 社区 与 微 处 理 器 开发 社区 的 目标 不 同 ， 因 此 它 发 展 出 了 自己 独特 的 处 
理 风格 和 术语 。 随 着 图 形 处 理 单元 计算 能 力 的 增加 ， 它 们 被 命名 为 图 形 处 理 单元 (Graphics 
Processing Unit) 或 GPU， 以 区 别 于 CPU。 

只 需要 几 百 美元 ， 任 何人 都 可 以 购买 到 带 有 数 百 个 并 行 浮 点 单元 的 GPU， 这 使 得 普通 
人 进行 高 性 能 计算 更 容易 了 。 当 这 种 潜力 与 编程 语言 相 结合 时 ，GPU 变 得 更 易于 编程 ， 而 大 
众 对 GPU 计算 的 兴趣 也 在 逐渐 增长 。 因 此 ,今天 的 许多 科学 和 多 媒体 应 用 的 程序 员 开 始 犹 
豫 究 竟 是 使 用 GPU 还 是 CPU 编程 。 

(本 节 重 点 介绍 如 何 使 用 GPU 进行 计算 。 想 要 了 解 GPU 计算 是 如 何 与 GPU 的 传统 功 
能 一 一 图 形 加 速 相 结合 的 ， 请 参阅 附录 B。) 

下 面 是 一 些 GPU 区 别 于 CPU 的 关键 特性 : 

e GPU 是 作为 CPU 补充 的 加 速 器 ， 因 此 不 需要 能 够 执行 CPU 上 的 所 有 任务 。 这 种 角 
色 定 位 同时 也 允许 了 GPU 将 所 有 的 资源 都 用 于 图 形 。GPU 在 执行 一 些 任务 时 表现 很 
差 甚 至 完全 不 能 执行 ， 这 也 是 被 允许 的 ， 因 为 在 一 个 同时 拥有 CPU 和 GPU 的 系统 
中 ，CPU 可 以 根据 需要 执行 这 些 (GPU 不 能 执行 的 ) 任务 。 
GPU 的 问题 规模 通常 为 几 百 MB 到 GB， 而 不 是 几 百 GB 到 TB。 
下 面 是 一 些 导 致 (GPU 和 CPU) 体系 结构 风格 不 同 的 差异 : 
。 也 许 最 大 的 区 别 在 于 GPU 不 依赖 于 多 级 cache 来 消除 内 存 的 长 延迟 ,但 CPU 依赖 。 
与 此 相反 ，GPU 依靠 硬件 多 线程 ( 见 6.4 节 ) 来 隐藏 内 存 延 迟 。 也 就 是 说 ， 在 存储 器 
发 出 请 求 与 数据 到 达 之 间 的 时 间 里 ，GPU 执行 了 数 百 或 数 千 个 独立 于 该 请 求 的 线程 。 
因此 ，GPU 的 存储 器 面向 带宽 而 不 是 延迟 。 甚 至 还 有 用 于 GPU 的 特殊 图 形 DRAM 
芯片 ， 这 种 芯片 比 用 于 CPU 的 DRAM 芯片 宽度 更 大 ， 并 且 具 有 更 高 的 带宽 。 此 外 ， 
GPU 存储 器 通常 比 传统 微 处 理 器 的 主 存 更 小 。 在 2013 年 ，GPU 存储 器 的 大 小 一 般 为 





4 一 6GiB 甚至 更 低 ， 而 CPU 存储 器 的 大 小 为 32 ~ 256GiB。 最 后 ， 请 记 住 ， 对 于 通 
用 计算 来 说 ， 需 要 将 CPU 内 存 和 GPU 内 存 之 间 传 输 数 据 的 时 间 也 计算 在 内 ， 因 为 毕 
竟 GPU 是 协 处 理 器 。 

e 考虑 到 GPU 需要 通过 多 线程 来 获取 良好 的 内 存 带宽 ， 除 多 线程 外 ，GPU 还 可 以 容纳 
许多 并 行 处 理 器 (MIMD )。 因 此 ， 每 个 GPU 处 理 器 都 比 传统 CPU 拥有 更 多 的 线程 ， 
并 且 它 们 拥有 更 多 的 处 理 器 。 

匡 柿 7 加 古 措 卓 虽然 GPU 是 为 小 众 的 图 形 应 用 程序 而 设计 的 ， 但 是 一 些 程序 员 想 要 
通过 某 种 形式 特 化 他 们 的 应 用 程序 ,使 其 能 够 挖 据 GPU 潜在 的 高 性 能 。 在 厌倦 了 尝试 使 用 
图 形 API 和 语言 后 ， 他 们 开发 了 类 C 语 言 的 编程 语言 ， 这 种 语言 支持 直接 为 GPU 编写 程 
序 。 一 个 例子 是 NVIDIA 的 CUDA (Compute Unified Device Architecture)， 它 使 程序 员 能 
够 编写 在 GPU 上 运行 的 C 程序， 尽管 会 有 一 些 限制 。 附 录 B 中 给 出 了 CUDA 的 示例 代码 。 
(OpenCL 是 由 多 个 公司 发 起 的 可 移植 编程 语言 ， 可 提供 CUDA 中 的 许多 功能 。) 

NVIDIA 决定 将 所 有 形式 的 并 行 都 定义 为 CUDA 线程 。 使 用 这 种 最 底层 的 并 行 作 为 纺 
程 原 语 ， 编 译 器 和 硬件 可 以 将 数 千 个 CUDA 线程 组 合 在 一 起 ， 以 利用 GPU 内 的 各 种 形式 的 
并 行 : 多 线程 、MIMD 、SIMD 和 指令 级 并 行 。 以 32 个 为 一 组 ， 这 些 线程 被 一 起 阻塞 并 一 起 
执行 。GPU 内 部 的 多 线程 处 理 器 执行 这 些 线程 块 ， 一 个 GPU 由 8 到 32 个 这 样 的 多 线程 处 理 
器 组 成 。 


6.6.1 NVIDIA GPU 体系 结构 简介 


我 们 使 用 NVIDIA 系统 作为 示例 ， 因 为 它们 是 GPU 体系 结构 的 代表 。 具 体 来 说 ， 我 们 
使 用 CUDA 并 行 编程 语言 的 术语 ， 并 以 Fermi 体系 结构 作为 示例 。 

与 向 量 体 系 结构 一 样 ，GPU 仅 适 用 于 数据 级 并 行 问题 。 这 两 种 体系 结构 都 具有 聚集 -分 
散 数据 传输 ， 不 过 GPU 处 理 器 比 向 量 处 理 器 拥有 更 多 的 寄存 器 。 与 大 多 数 向 量 体 系 结构 不 
同 ，GPU 还 依赖 于 单个 多 线程 SIMD 处 理 器 中 的 硬件 多 线程 来 隐藏 存储 器 延迟 ( 见 6.4 节 )。 

多 线程 SIMD 处 理 器 类 似 于 向 量 处 理 器 ， 但 是 前 者 有 许多 并 行 功 能 单元 ， 而 不 是 像 后 者 
一 样 只 有 少数 深度 流水 的 功能 单元 。 

正如 上 文 所 述 ，GPU 中 包含 一 个 多 线程 SIMD 处 理 右 的 集合 ; 也 就 是 说 ，GPU 是 由 多 
线程 SIMD 处 理 器 组 成 的 MIMD。 例 如 , NVIDIA 的 Fermi 架构 有 四 种 不 同 价位 的 具体 实现 ， 
分 别 包括 7、11、14 或 15 个 多 线程 SIMD 处 理 器 。 为 了 在 具有 不 同 数量 的 多 线程 SIMD 处 
理 器 的 GPU 模型 之 间 提 供 透 明 的 可 扩展 性 ， 线 程 块 调度 器 硬件 为 多 线程 SIMD 处 理 器 分 配 
线程 块 。 图 6-9 是 多 线程 SIMD 处 理 器 的 简化 框图 。 

让 我 们 再 向 下 深入 一 层 细节 ， 硬 件 创建 、 管 理 、 调 度 和 执行 的 机 器 对 象 是 一 个 SIMD 指 
令 的 线程 ， 也 称 为 SIMD 线程 。 它 是 一 个 传统 的 线程 ， 但 只 包含 SIMD 指令 。 这 些 SIMD 线程 
有 自己 的 程序 计数 器 ， 它 们 运行 在 多 线程 SIMD 处 理 器 上 。SIMD 线程 调度 器 包含 一 个 控制 器 ， 
该 控制 器 知道 SIMD 指令 的 哪些 线程 已 准备 好 运行 ， 然 后 将 它们 发 送 到 调度 单元 ， 以 便 在 多 线 
程 SIMD 处 理 器 上 运行 。SIMD 线程 调度 器 与 传统 多 线程 处 理 器 中 的 硬件 线程 调度 器 相同 ( 见 
6.4 节 )， 区 别 仅 在 于 它 是 调度 SIMD 指令 的 线程 。 因 此 ，GPU 硬件 有 两 级 硬件 调度 器 : 

1. 线程 块 调度 器 ， 用 于 多 线程 SIMD 处 理 器 分 配 线程 块 。 

2. SIMD 线程 调度 器 ， 位 于 SIMD 处 理 器 内 部 ， 可 在 SIMD 线程 运行 时 进行 调度 。 

这 些 线程 的 SIMD 指令 宽度 为 32， 因 此 每 个 SIMD 指令 线程 都 将 计算 32 个 计算 元 素 。 
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由 于 线程 由 SIMD 指令 组 成 ， 因 此 SIMD 处 理 器 必须 具有 并 行 功能 单元 才能 执行 操作 。 我 们 
称 其 为 SIMD 通道 ， 这 与 6.3 节 中 的 向 量 通道 非常 类 似 。 
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图 6-9 一 个 多 线程 SIMD 处 理 器 数据 通路 的 简化 框图 。 它 有 16 个 SIMD 通道 。SIMD 线程 
调度 器 中 有 许多 相互 独立 的 SIMD 线程 ， 它 们 可 以 被 选择 运行 在 此 处 理 器 上 


| 详细 阐述 每 个 SIMD 处 理 器 的 通道 数量 因 GPU 的 版 本 而 异 。 在 Fermi 中 ， 每 个 宽度 
为 32 的 SIMD 指令 线程 都 被 映射 到 16 个 SIMD 通道 ， 因 此 SIMD 指令 线程 中 的 每 条 SIMD 
指令 都 需要 两 个 时 钟 周期 才能 完成 。 ee 
SIMD 处 理 器 与 向 量 处 理 器 做 类 比 ， 你 可 以 说 它 有 16 个 通道 ， 并 且 向 量 长 度 为 32。 这 个 帘 

而 浅 的 性 质 是 我 们 使 用 术语 SIMD 处 理 器 而 不 是 向 量 处 理 器 的 原因 ， 因 为 SIMD 处 理 器 这 个 
术语 更 直观 。 

因为 根据 定义 ，SIMD 指令 线程 是 独立 的 ， 所 以 SIMD 线程 调度 器 可 以 选择 任何 一 个 
准备 好 的 SIMD 指令 线程 ， 并 且 不 需要 在 一 条 指令 执行 后 继续 坚持 执行 该 线程 内 的 下 一 条 
SIMD 指令 。 因 此 ， 如 果 使 用 6.4 节 中 的 术语 来 描述 ，SIMD 处 理 器 使 用 细 粒 度 多 线程 。 

为 了 保存 存储 元 素 ，Fermi SIMD 处 理 器 具有 令 人 印象 深刻 的 32768 个 32 位 寄存 器 。 就 
像 向 量 处 理 器 一 样 ， 这 些 寄 存 器 在 向 量 通道 (这 里 是 SIMD 通道 ) 上 进行 次 辑 划 分 。 每 个 
SIMD 线程 限制 为 不 超过 64 个 寄存 器 ， 因 此 你 可 以 认为 SIMD 线程 至 多 有 64 个 向 量 寄存 
器 ， 每 个 向 量 寄存 器 中 具有 32 个 元 素 ， 每 个 元 素 为 32 位 宽 。 | 

Fermi 有 16 个 SIMD 通道 ， 因 此 每 个 通道 包含 2048 个 寄存 器 (32768/16=2048 )。 每 个 
CUDA 线程 获得 每 个 向 量 寄存 器 的 一 个 元 素 。 注 意 ，CUDA 线程 只 是 SIMD 指令 的 线程 的 垂 
直 切 割 ， 一 个 SIMD 线程 对 应 执行 一 个 元 素 。 请 注意 ，CUDA 线程 与 POSIX 线程 非常 不 同 ， 
你 不 能 任意 地 在 CUDA 线程 中 进行 系统 调用 或 同步 。 





6.6.2 NVIDIA GPU 存储 结构 
图 6-10 展示 了 NVIDIA GPU 的 存储 结构 。 我 们 称 每 个 多 线程 SIMD 处 理 器 本 地 的 片上 
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存储 器 为 局 部 存储 器 ( local memory)。 它 由 多 线程 SIMD 处 理 器 中 的 SIMD 通道 共享 ， 但 多 
线程 SIMD 处 理 絮 之 间 不 共享 此 存储 融 。 我 们 称 整个 GPU 和 所 有 线程 块 共享 的 片 外 DRAM 
为 GPU 存储 器 (GPU memory ) 。 


CUDA 线程 


顺序 





图 6-10 GPU 存储 器 结构 。GPU 存储 器 被 向 量化 的 循环 共享 。 一 个 线程 块 中 的 所 有 SIMD 
指令 线程 共享 局 部 存储 器 


GPU 不 依赖 于 大 容量 的 cache 来 保存 应 用 程序 的 整个 工作 集 ， 而 是 传统 地 使 用 小 容量 的 
流 cache 并 依赖 于 大 量 的 SIMD 指令 多 线程 来 隐藏 DRAM 的 长 延迟 ， 因 为 这 些 工 作 集 的 大 
小 通常 是 数 百 MB。 因此， 数据 集 无 法 放 在 多 核 微 处 理 器 的 末 级 cache 中 。 为 了 使 用 硬件 多 
线程 来 隐藏 DRAM 延迟 ，GPU 将 在 系统 处 理 器 中 放置 cache 芯片 的 区 域 替 换 为 计算 资源 和 
大 量 的 寄存 器 ， 用 以 执行 大 量 的 SIMD 指令 多 线程 。 

圩 一 羡 通 j 尽管 隐藏 存储 器 延迟 是 GPU 的 港 在 设计 哲学 ， 但 需要 注意 的 是 最 新 的 GPU 
和 向 量 处 理 器 中 都 已 经 添加 了 cache。 举 例 来 说 ， 最 近 的 Fermi 体系 结构 中 增加 了 cache， 不 
过 它们 或 者 被 认为 是 带宽 过 滤器 ， 以 减少 对 GPU 存储 器 的 访问 需求 ; 或 者 作为 加 速 器 ， 以 
加 速 那 些 延 识 不 能 被 多 线程 隐藏 的 少数 变量 。 扒 栈 帧 、 函 数 调 用 和 寄存 器 滋 出 的 局 部 存储 器 
都 很 适用 于 cache， 因 为 在 函数 调用 时 延 次 会 有 影响 。cache 还 可 以 节省 能 耗 ， 因 为 访问 片上 
cache 比 访问 多 个 外 部 DRAM 芯片 所 需 的 能 效 要 低 得 多 。 


6.6.3 对 GPU 的 展望 


从 高 层次 来 看 ， 具 有 SIMD 指令 扩展 的 多 核 计算 机 确实 与 GPU 有 相似 性 。 图 6-11 总 结 
了 它们 的 相似 之 处 和 不 同 之 处 。 两 者 都 是 MIMD， 并 且 处 理 器 都 使 用 多 个 SIMD 通道 ， 尽 
管 GPU 具有 更 多 处 理 器 和 更 多 通道 。 两 者 都 使 用 硬件 多 线程 来 提高 处 理 器 利用 率 ， 尽 管 
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GPU 支持 更 多 线程 的 硬件 。 两 者 都 使 用 cache， 虽 然 GPU 使 用 小 容量 的 流 cache， 而 多 核 计 
算 机 使 用 大 容量 的 多 级 cache， 试 图 完整 包含 整个 工作 集 。 两 者 都 使 用 64 位 地 址 空间 ， 尽 管 
GPU 中 的 物理 地 址 存储 器 要 小 得 多 。 虽 然 GPU 支持 页 级 别 的 内 存 保护 ， 但 它们 还 不 支持 动 
态 页 面 调度 。 


SMD 处 理 吕 数量 
SIMD 通 道 /处 理 器 数量 8 一 16 





















和 
存储 器 地 址 大 小 人 
主 存 容量 8~256GiB 


图 6-11 带 有 多 媒体 SIMD 扩展 的 多 核 处 理 器 与 最 近 的 GPU 之 间 的 相似 点 与 不 同 点 


SIMD 处 理 器 也 与 向 量 处 理 器 很 相似 。GPU 中 的 多 个 SIMD 处 理 器 充当 独立 的 MIMD 
核心 ， 就 像 许 多 向 量 计算 机 具有 多 个 向 量 处 理 器 一 样 。 按 照 这 种 观点 ， 可 以 将 Fermi GTX 
580 视 为 具有 硬件 支持 多 线程 的 16 核 计 算 机 ， 其 中 每 个 核心 具有 16 个 通道 。 最 大 的 区 别 是 
多 线程 ， 这 是 GPU 的 基础 ， 而 在 大 多 数 向 量 处 理 器 中 不 存在 。 

GPU 和 CPU 体系 结构 没有 共同 的 “祖先 ”， 并 没有 过 渡 环 节 来 解释 它们 。 因 为 这 种 不 寻 
常 的 继承 关系 ，GPU 没有 使 用 计算 机 体系 结构 社区 中 常见 的 术语 ， 这 导致 了 人 们 对 GPU 是 
什么 以 及 GPU 如 何 工作 的 困惑 。 为 了 解决 这 种 困惑 ， 图 6-12 (从 左 到 右 ) 列 出 了 本 节 中 用 到 
的 更 具 描 述 性 的 术语 、 与 主流 计算 最 接近 的 术语 、NVIDIA GPU 官方 术语 (如 果 你 感 兴趣 的 
话 )， 最 后 是 术语 的 简单 描述 。 这 个 “ GPU 罗 塞 达 石 ”可 能 有 助 于 将 本 节 的 内 容 和 想法 与 更 
传统 的 GPU 描述 相关 联 ， 例 如 附录 B 中 的 描述 。 

虽然 GPU 正在 向 主流 计算 发 展 ， 但 也 不 能 放弃 继续 发 展 图 形 处 理 的 责任 。 因 此 ， 当 架 
构 师 提出 这 样 的 问题 时 ，GPU 的 设计 可 能 更 有 意义 : 因为 投入 的 硬件 可 以 很 好 地 完成 图 形 处 
理 ， 我 们 如 何 补充 它 以 提高 更 广泛 应 用 的 性 能 ? 

在 介绍 了 两 种 不 同类 型 的 具有 共享 地 址 空间 的 MIMD 后 ， 接 下 来 我 们 将 介绍 每 个 处 理 
器 都 有 自己 的 专用 地 址 空间 的 并 行 处 理 器 ， 这 使 得 构建 更 大 的 系统 变 得 相当 容易 。 你 每 天 使 
用 的 因特网 服务 就 依赖 于 这 些 大 型 系统 。 

[ 译 顷 曾 述 虽然 GPU 中 添加 了 与 CPU 分 离 的 存储 器 ， 但 是 AMD 和 Intel 都 发 布 了 “ 融 
合 ” 的 产品 ， 它 们 结合 GPU 和 CPU 共享 单个 存储 器 。 这 种 技术 的 挑战 是 需要 在 融合 架构 中 
维持 高 存储 带宽 ， 这 也 是 GPU 的 基本 问题 。 
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一 个 可 向 量化 的 循环 ， 在 GPU 上 执行 ， 
可 向 量化 循环 可 向 量化 循环 “| 网 格 由 一 个 或 多 个 可 并 行 执行 的 线程 块 (向 量化 
的 循环 体 ) 组 成 
程 一 个 在 多 线程 SIMD 处 理 器 上 执行 的 向 量 
摘 | 向 量化 的 循环 体 。 | 人， 于 | 线程 所 化 的 循环 ， 由 一 个 或 多 个 SIMD 指令 线程 组 
象 成 。 它 们 之 间 可 以 通过 局 部 存储 器 进行 通信 
1 SIMD 指令 线程 的 垂直 切割 ， 对 应 于 由 一 
SIMD 通道 操作 序列 迁 代 CUDA 线程 个 SIMD 通道 执行 的 一 个 元 素 。 根 据 屏 蔽 寄 
存 器 和 预测 寄存 器 存储 结果 
十 必 过 请 一 个 传统 线程 ， 但 是 包含 执行 在 多 线程 
机 | 一 个 SIMD 指令 的 线程 | 线程 warp SIMD 处 理 器 上 的 SIMD 指令 。 根 据 每 个 元 
下 素 的 屏蔽 寄存 器 存储 结果 
3 si 有 野生 pr sD 
(多 线程 的 ) 向 |、 多 线程 SIMD 处 理 器 执行 SIMD 指令 线 
多 线程 SIMD 处 理 器 | 量 处 理 器 流 多 处 理 器 程 ， 与 其 他 SIMD 处 理 器 相互 独立 
个 疆 与 如 用 
线程 块 调度 器 标量 处 理 器 。 | 千 兆 线程 引擎 人 
下 
理 如 六 程 Cj 种 当 SIMD 指令 线程 准备 好 执行 时 调度 并 发 
硬 | SIMD 线程 调度 器 的 Warp 调度 器 射 的 硬件 单元 ， 包 括 一 个 追踪 SIMD 线程 执 
件 的 线程 调度 器 本 人 
一 个 SIMD 通道 ， 执 行 单个 元 素 上 的 
SIMD 通道 向 量 通道 线程 处 理 器 SIMD 指令 线程 的 操作 。 根 据 屏蔽 寄存 器 存 
储 结 










可 以 被 一 个 GPU 上 的 所 有 多 线程 SIMD 
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存 处 理 器 访问 的 DRAM 存储 器 
储 一 个 多 线程 SIMD 处 理 器 上 的 快速 的 局 部 
局 部 存储 器 局 部 存储 器 共享 存储 器 hte hr eer 









在 整个 线程 块 (向 量化 的 循环 体 ) 中 分 配 

的 一 个 SIMD 通道 中 的 寄存 器 

图 6-12 ”GPU 术语 的 快速 介绍 。 第 一 列 为 硬件 术语 ， 这 12 个 术语 被 分 成 了 4 组 ， 从 上 到 下 
分 别 是 程序 抽象 、 机 器 对 象 、 处 理 硬件 和 存储 器 硬件 


6.7 集群、 仓储 级 计算 机 和 其 他 消息 传递 多 处 理 器 ， 
消息 传递 : 通过 显 式 发 送 


共享 地 址 空间 的 替代 方案 是 为 每 个 处 理 器 都 提供 私有 物理 地 址 | 和 接收 消息 在 多 个 处 理 器 
空间 。 图 6-13 是 这 种 具有 私有 地 址 空间 的 多 处 理 器 的 典型 组 织 结 | 之 同 进行 通信 。 
构 。 采 用 这 种 替代 方案 的 多 处 理 器 必须 通过 显 式 消息 传递 (message RE 
passing) 进行 通信 ， 传 统 上 也 把 这 种 类 型 的 计算 机 称 为 显 式 消息 传 pe 
递 计算 机 。 只 要 系统 具有 发 送 消息 例 程 (send message routine) 和 接 | 中 使 用 的 例 程 ， 用 于 将 消 
收 消息 例 程 ( receive message routine)， 就 可 以 通过 内 置 的 消息 传递 “| 息 传递 给 另 一 个 处 理 器 。。 
进行 协调 ， 因 为 一 个 处 理 器 知道 何 时 发 送 消息 ， 并 且 接 收 处 理 器 也 ER 
知道 消息 何 时 到 达 。 如 果 发 送 方 需要 确认 消息 已 到 达 ， 则 接收 处 理 有 存储 要 的 计算 机 处 理 器 
器 可 以 向 发 送 方 发 回 确认 消息 。 中 使 用 的 例 程 ， 用 于 接收 

迄今 为 止 ， 已 经 有 多 次 基于 高 性 能 消息 传递 网 络 构建 大 型 计算 。| 来 自 妃 一 个 处 理 器 的 消息 。 





SIMD 通道 寄存 器 向 量 通道 寄存 器 | 线程 处 理 器 寄存 器 














间 季 处 理 器 : 从 答 户 更 到 云 371 





机 的 尝试 了 ， 而 且 这 些 尝 试 确实 提供 了 比 使 用 局 域 网 构建 的 集群 更 好 的 通信 性 能 。 实 际 上 ， 
今天 的 许多 超级 计算 机 都 使 用 了 自 定 义 网 络 。 问 题 在 于 自 定 义 网 络 比 以 太 网 等 局 域 网 要 昂贵 
得 多 。 由 于 过 高 的 成 本 ， 除 高 性 能 计算 之 外 ， 很 少 有 应 用 程序 会 对 其 进行 尝试 。 


和 
| | | 
| | 互连网 络 | 
图 6-13 具有 私有 地 址 空间 的 多 处 理 器 的 典型 组 织 结构 ， 传 统 上 称 为 消息 传递 多 处 理 器 。 需 
要 注意 ,与 图 6-7 中 的 SMP 不 同 ， 本 图 的 互连网 络 不 在 cache 和 存储 器 之 间 ， 而 
是 在 不 同 的 处 理 右 -存储 器 节点 之 间 


| 甬 件 /软件 接 盏 ;相对 于 cache 一 致 的 共享 内 存 计算 机 ,使 用 消息 传递 进行 通信 的 计算 
机 对 硬件 设计 者 来 说 更 容易 构建 ( 见 5.8 节 )。 这 种 计算 机 对 程序 员 来 说 也 有 好 处 ， 因 为 通信 
是 显 式 的 ， 所 以 相对 于 cache 一 致 的 共享 内 存 计算 机 中 的 隐 式 通信 ， 在 性 能 方面 会 遇 到 的 意 
外 更 少 。 对 程序 员 来 说 ， 坏 处 是 将 顺序 程序 移植 到 消息 传递 计算 机 上 变 得 更 加 困难 ， 因 为 每 
次 通信 都 必须 提前 定义 好 ， 否 则 程序 将 不 能 工作 。cache 一 致 的 共享 内 存 计算 机 允许 硬件 来 
确定 需要 传递 的 数据 ， 这 使 得 移植 更 加 容易 。 考 虑 到 隐 式 通信 的 利 与 浆 ， 对 哪 种 方式 更 利于 
获得 高 性 能 依然 存在 分 歧 ， 不 过 现在 市 场 上 却 并 不 存在 这 种 困惑 一 多核 微 处 理 器 使 用 共享 
物理 内 存 机 制 进行 通信 ， 而 集群 节点 使 用 消息 传递 机 制 相互 通信 。 

一 些 并 发 应 用 程序 在 并 行 硬件 上 运行 良好 ， 与 硬件 是 否 提供 共 ”| 傈 群 ， 通过 标准 网 络 交换 
享 地 址 或 消息 传递 机 制 无 关 。 特 别 是 ， 任 务 级 并 行 性 和 几乎 没有 通 。 | 机 上 的 VO 进行 连接 的 计 
信 的 应 用 程序 一 一 例如 Web 搜索 、 邮 件 服务 器 和 文件 服务 器 等 一 一 | 算 机 集合 ， 以 构成 消息 伟 
不 需要 共享 地 址 机 制 也 可 以 运行 良好 。 这 导致 集群 (cluster) 已 成 为 | 利和 欠 理 器 。 
当今 消息 传递 并 行 计算 机 中 最 普遍 的 实例 。 因 为 有 单独 的 存储 器 ， 
集群 的 每 个 节点 都 可 以 运行 操作 系统 的 不 同 副本 。 相 较 之 下 ， 微 处 理 器 内 的 核心 使 用 芯片 内 
部 的 高 速 网 络 连接 ， 多 芯片 共享 存储 器 系统 使 用 存储 器 互 连 进行 通信 。 存 储 器 互 连 具 有 更 高 
的 带宽 和 更 低 的 延迟 ， 从 而 为 共享 内 存 多 处 理 器 提供 了 更 好 的 通信 性 能 。 

将 用 户 存储 器 分 开 存储 ， 这 种 从 并 行 编程 的 角度 来 看 的 弱点 反而 变 成 了 系统 可 靠 性 的 优 
点 ( 见 5.5 节 )。 由 于 集群 由 通过 局 域 网 连接 的 独立 计算 机 组 成 ， 因 此 在 不 关闭 系统 的 情况 
下 更 换 计算 机 ， 在 集群 中 很 容易 做 到 ， 但 在 共享 内 存 多 处 理 器 中 却 不 容易 。 从 根本 上 说 ， 共 
享 地址 意味 着 在 没有 操作 系统 做 大 量 工作 的 情况 下 ， 在 服务 器 的 物理 设计 上 很 难 隔离 处 理 器 
并 替换 它 。 当 服务 器 发 生 故 障 时 ， 集 群 也 可 以 轻松 地 按 比例 缩小 ， 从 而 提高 男 言 粕 。 由 于 
集群 软件 运行 在 每 台 计 算 机 的 本 地 操作 系统 之 上 ， 因 此 断 开 连 接 并 更 换 损坏 的 计算 机 要 容易 
得 多 。 

考虑 到 集群 是 由 完整 的 计算 机 和 独立 、 可 扩展 的 网 络 构建 的 ， 这 种 隔离 使 得 在 无 须 印 载 
在 集群 之 上 运行 的 应 用 程序 的 情况 下 ， 扩 展 系统 更 加 容易 。 











尽管 与 大 规模 共享 内 存 多 处 理 器 相 比 ， 集 群 的 通信 性 能 较 差 ， 但 集群 的 低 成 本 、 高 可 用 
性 和 快速 可 扩展 使 得 集群 对 因特网 服务 提供 商 具 有 吸引 力 。 每 天 有 数 亿 人 使 用 的 搜索 引擎 就 
依赖 于 这 项 技术 。Amazon、Facebook、Google 、Microsoft 和 其 他 公司 都 有 多 个 数据 中 心 ， 
每 个 数据 中 心 有 成 千 上 万 台 服 务 器 的 集群 。 显 然 ， 在 互联 网 服务 公司 中 使 用 多 处 理 器 已 经 取 
得 了 巨大 的 成 功 。 


仓储 级 计算 机 


正如 上 文 所 述 ， 因 特 网 服务 需要 建造 新 的 建筑 物 ， 来 对 100 000 | 任何 人 都 可 以 构建 一 个 二 
台 服 务 器 进行 放置 、 供 能 和 冷却 。 虽 然 它们 可 以 被 归 类 为 大 型 集 | 违 CPU。 秘 诀 就 是 建立 一 
群 ， 不 过 它们 的 架构 和 操作 要 更 为 复杂 。 这 些 计算 机 充当 一 台 巨 Re 

型 计算 机 ， 建 筑 施工 、 电 费 、 冷 却 基础 设施 以 及 连接 并 容纳 这 | yx 

50 000 一 100 000 台 服 务 器 的 网 络 设备 的 成 本 约 为 1.5 亿美 元 。 我 们 

将 它们 认为 是 一 类 新 的 计算 机 ， 称 为 仓储 级 计算 机 (Warehouse-Scale Computer, WSC)。 

匡 生 7 喜 态 措 国 WSC 中 最 流行 的 批 处 理 框架 是 MapReduce[Dean，2008] 及 其 类 似 的 
开源 版 本 Hadoop。 受 Lisp 中 的 同名 函数 的 启发 ，Map 首先 将 程序 员 提 供 的 函数 应 用 于 每 个 
逻辑 输入 记录 。Map 在 数 千 台 服务 器 上 和 运行， 以 产生 键 值 对 的 中 间 结 果 。Reduce 收集 这 些 
分 布 式 任务 的 输出 ， 并 使 用 另 一 个 程序 员 定义 的 函数 折 司 它们 。 在 适当 的 软件 支持 下 ， 这 两 
个 函数 都 是 高 度 并 行 的 ， 易 于 理解 和 使 用 。 只 需 不 到 30 分钟， 新 手 程 序 员 就 可 以 在 数 千 台 
服务 器 上 和 运行 MapReduce 任务 。 

例如 ， 一 个 MapReduce 程序 计算 大 量 文档 中 每 个 英语 单词 的 出 现 次 数 。 下 面 是 该 程序 
的 简化 版 本 ， 它 只 显示 内 部 循环 ， 并 假设 在 文档 中 找到 的 所 有 英语 单词 只 出 现 一 次 : 


map(String key, String value): 
// key: document name 
// value: document contents 
for each word w in value: 
EmitIntermediate(w, “1”); // Produce list of all words 
reduce(String key, Iterator values): 
// key: a word 
// values: a list of counts 
int result = 0; 
for each v in values: 
result += ParseInt(v); // get integer from key-value pair 
Emit(AsString(result)); 


Map 函数 中 使 用 EmitIntermediate 函数 获得 文档 中 的 每 个 单词 和 值 1。 然 后 ， 
Reduce 函数 使 用 ParseInt() 对 每 个 文档 的 每 个 单词 的 所 有 值 求 和 ， 以 获得 所 有 文档 中 每 
个 单词 的 出 现 次 数 。MapReduce 运行 时 环境 将 Map 任务 和 Reduce 任务 调度 到 WSC 的 服务 
蓝 上 5 

在 这 种 极端 的 规模 下 ， 需 要 对 配 电 、 冷 却 、 监 控 和 操作 方面 都 进行 创新 ，WSC 是 20 世 
纪 70 年 代 超 级 计算 机 的 现代 版 本 ， 这 使 得 Seymour Cray 成 为 当今 WSC 体系 结构 的 教父 。 
他 创造 的 极致 计 算 机 可 以 完成 其 他 计算 机 不 能 完成 的 计算 ,但 是 价格 十 分 昂贵 ， 只 有 少数 公 
司 能 负担 得 起 。 现 在 WSC 的 目标 是 为 世界 提供 信息 技术 ， 而 不 是 为 科学 家 和 工程 师 提供 高 
性 能 计算 。 因 此 ， 今 天 的 WSC 肯定 比 过 去 Cray 的 超级 计算 机 发 挥 了 更 重要 的 社会 作用 。 

尽管 在 目标 上 与 服务 器 有 一 些 共同 点 , 但 WSC 还 是 有 以 下 三 个 主要 区 别 : 
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1. 大 量 、 简 单 的 并 行 性 : 服务 器 架构 师 关 注 的 是 目标 市 场 中 的 ”| 软件 即 服务 : 软件 不 是 销 
应 用 程序 是 否 具 有 足够 的 并 行 性 ， 以 此 来 判断 并 行 硬件 的 数量 ， 以 ”| 售 并 安装 运行 在 用 户 计算 
及 成 本 是 否 太 高 以 至 于 没有 足够 的 通信 硬件 来 利用 这 种 并 行 性 。 而 | 加 全 全 
WSC 架构 师 没 有 这 样 的 担忧 。 首 先 ， 像 MapReduce 这 样 的 批 处 理 通过 Web 界面 ) 提供 给 客 
应 用 程序 受益 于 需要 独立 处 理 的 大 量 独立 数据 集 ， 例 如 Web 怜 虫 得 | 户 。SaaS 客户 是 根据 是 
到 的 数 十 亿 个 Web 页 面 。 其 次 ， 交 互 式 互联 网 服务 应 用 程序 ， 也 称 0 
为 软件 即 服务 ( Software as a Service，SaaS)， 可 以 从 其 数 百 万 个 独 
立 用户 中 受益 。 读 取 和 写 人 很 少 依赖 于 SaaS， 因 此 SaaS 很 少 需要 
同步 。 例 如 ， 搜 索 使 用 只 读 索 引 ， 电 子 邮 件 通常 是 读 写 独立 信息 。 我 们 称 这 种 类 型 的 简单 并 
行为 请 求 级 并 行 ， 因 为 许多 独立 的 工作 可 以 自然 地 并 行进 行 ， 几 乎 不 需要 通信 或 同步 。 

2. 计算 运营 成 本 : 传统 上 上， 服务 器 架构 师 在 成 本 预算 内 设计 其 系统 以 实现 最 佳 性 能 ， 并 
且 只 关心 能 耗 以 确保 它们 不 超过 其 机 箱 的 冷却 能 力 。 他 们 通常 会 忽略 服务 器 的 运营 成 本 ， 并 
假设 运营 成 本 与 购买 成 本 相 比 显 得 微不足道 。WSC 有 更 长 的 使 用 寿命 一 一 建筑 、 电 气 和 制冷 
基础 设施 通常 会 在 10 年 或 更 长 的 时 间 内 平 挫 和 开销 一 一 因此 运营 成 本 需要 将 以 下 内 容 加 起 来 : 
对 于 运营 超过 10 年 的 WSC， 能 耗 、 配 电 和 冷却 的 成 本 占据 总 成 本 的 30% 以 上 。 

3. 规模 及 与 规模 相关 的 机 会 和 问题 : 要 构建 一 个 WSC， 你 必须 购买 100000 台 服 务 器 以 
及 基础 架构 ， 而 这 也 意味 着 批量 折扣 。 因 此 ，WSC 内 部 结构 如 此 庞大 ， 即 便 WSC 的 总 数 很 
少 也 可 以 获得 规模 经 济 。 这 些 规模 经 济 导致 了 云 计 算 ， 因 为 WSC 的 服务 器 单位 成 本 较 低 ， 
意味 着 云 公司 可 以 用 有 利 可 图 的 价格 租用 服务 器 ， 并 且 这 个 价格 仍然 低 于 外 部 人 员 自 己 购 买 
的 成 本 。 规 模 经 济 机 会 的 另 一 面 是 需要 应 对 大 规模 的 故障 率 。 即 使 服务 器 具有 高 达 25 年 的 
(200000 小 时 ) 的 平均 无 故障 时 间 ， 但 WSC 架构 师 仍 需要 考虑 每 天 有 五 台 服 务 器 故障 的 可 
能 。5.15 节 提 到 的 年 化 磁盘 故障 率 ( AFR) 在 谷歌 的 测量 结果 为 2% ~ 4%。 如 果 每 台 服 务 器 
有 四 个 磁盘 上 且 其 年 度 故 障 率 为 2%， 那 么 WSC 架构 师 可 以 估算 出 平均 每 小 时 可 能 有 一 个 磁盘 
发 生 故障 。 因 此 ， 相 比 服务 器 架构 师 来 说 ， 对 于 WSC 架构 师 而 言 容 错 性 更 为 重要 。 

由 WSC 带 来 的 规模 经 济 实现 了 长 期 以 来 希望 将 计算 作为 一 种 实用 工具 的 目标 。 云 计算 
意味 着 任何 有 好 主意 、 商 业 模 式 和 信用 卡 的 人 都 可 以 利用 数 千 台 服务 器 在 世界 各 地 即时 传递 
他 们 的 愿景 。 当 然 ， 也 存在 可 能 会 限制 云 计算 增长 的 重要 障碍 ,例如 安全 性 、 隐 私 、 标 准 和 
互联 网 带宽 的 增长 率 ， 但 我 们 预见 这 些 问 题 可 以 得 到 解决 ， 而 WSC 和 云 计算 能 够 因此 莲 勃 

考虑 到 云 计 算 的 增长 速度 ，2012 年 亚马逊 网 络 服务 公司 宣布 ， 它 每 天 都 会 增加 相当 于 
2003 年 服务 器 总 量 的 新 服务 器 来 支持 亚马逊 的 所 有 全 球 基 础 设施 ， 当 时 亚马逊 是 一 家 拥有 
6000 名 员工 的 年 收入 达 52 亿美 元 的 企业 。 

现在 我 们 已 经 了 解 了 消息 传递 多 处 理 器 的 重要 性 ， 特 别 是 对 于 云 计 算 ， 接 下 来 要 介绍 
将 WSC 的 节点 连接 在 一 起 的 方法 。 由 于 悔 定律 和 每 个 芯片 的 核心 数量 不 断 增加 ， 现 在 
芯片 内 部 也 需要 互连网 络 ， 因 此 这 些 拓扑 结构 无 论 是 在 小 型 计算 机 还 是 大 型 计算 机 中 都 很 

| 详细 阐述 MapReduce 框架 在 Map 阶段 结束 时 对 键 值 对 进行 重组 和 排序 ， 以 生成 所 有 
共享 相同 键 的 组 。 接 下 来 将 这 些 组 传递 到 Reduce 阶段 。 

| 详 顷 阐 壕 还 有 一 种 形式 的 大 规模 计算 是 网 格 计算 ， 其 中 计算 机 分 布 在 一 个 很 大 的 区 域 
内 ， 和 运行 于 其 上 的 程序 必须 通过 长 距离 网 络 进行 通信 。 最 受 欢 迎 也 最 独特 的 网 格 计算 形式 由 
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SETI@home 项 目 创立 。 由 于 在 任何 时 候 都 存在 数 以 百 万 计 的 PC 闲置 无 用 ， 如 果 有 人 开发 出 
可 以 在 这 些 计算 机 上 和 运行 的 软件 然后 分 发 到 每 台 PC 上 独立 解决 问题 ， 那 么 问题 的 结果 就 可 
以 被 获取 并 充分 利用 。 第 一 个 例子 是 1999 年 在 加 州 大 学 伯克利 分 校 推出 的 搜索 超级 地 球 知 
能 (SETI)。 超 过 200 个 国家 的 500 多 万 计算 机 用 户 报名 参加 了 SETI@home， 其 中 超过 50% 
的 用 户 在 美国 境外 。 截 至 2011 年 底 ，SETI@home 网 格 的 平均 性 能 为 3.5PetaFLOPS。 











6.8 多 处 理 器 网 络 拓扑 简介 


多 核 芯片 需 要 片上 网 络 将 核心 连接 在 一 起 ， 而 集群 需要 局 域 网 将 服务 器 连接 在 一 起 。 本 
节 将 对 不 同 互连网 络 拓扑 的 优 缺 点 进行 回顾 。 

网 络 成 本 包括 开关 数量 、 开 关连 接 到 网 络 的 链 路 数量 、 每 个 链 路 的 宽度 (比特 数 )， 以 及 
网 络 映射 到 芯片 时 连接 的 长 度 。 例 如 ， 一些 核 心 或 服务 器 可 以 是 相 邻 的 ， 而 其 他 核心 或 服务 
带 则 可 能 位 于 芯片 的 男 一 侧 或 数据 中 心 的 另 一 侧 。 网 络 性 能 也 是 多 方面 的 ， 包 括 在 无 负载 的 
网 络 上 发 送 和 接收 消息 的 延迟 、 在 给 定时 间 段 内 可 以 传输 的 最 大 消息 数量 的 吞吐 量 、 由 网 络 
的 一 部 分 争 用 引起 的 延迟 ， 以 及 取决 于 通信 模式 的 可 变性 能 。 网 络 的 另 一 个 责任 是 容错 ， 因 
为 系统 可 能 需要 在 存在 损坏 组 件 的 情况 下 工作 。 最 后 ， 在 受 能 耗 限 制 的 系统 里 ， 由 于 不 同 组 
织 架构 导致 的 系统 能 耗 的 不 同 可 能 是 需要 考虑 的 最 重要 的 问题 。 

网 络 通 常 被 绘制 为 图 形 ， 图 形 的 每 条 边 代表 通信 网 络 的 链 路 。 在 本 节 的 图 中 ,处理 器 - 
内 存 节 点 显示 为 黑色 方块 ， 开 关 显 示 为 灰色 圆 点 。 我 们 假设 所 有 链接 都 是 双向 的 ; 也 就 是 说 ， 
信息 可 以 向 任 一 方向 流动 。 所 有 网 络 都 由 开关 组 成 ， 其 链 路 连接 到 处 理 器 - 内 存 节点 和 其 他 
开关 。 第 一 个 网 络 将 一 系列 节点 连接 在 一 起 : 





这 种 拓扑 称 为 环 。 由 于 某 些 节点 没有 直接 连接 ， 因 此 某 些 消息 必须 沿 中 间 节点 跳 转 , 直 
到 到 达 最 终 目 的 地 。 

与 总 线 (一 组 允许 广播 到 所 有 连接 设备 的 公共 线路 ) 不 同 ， 环 能 够 同时 进行 多 个 传输 。 

由 于 有 多 种 拓扑 可 供 选 择 ， 因 此 需要 使 用 性 能 指标 来 区 分 这 些 0 
设计 。 有 两 个 很 受 欢迎 的 指标 。 第 一 个 是 总 网 络 带 宽 ， 即 每 个 链 路 。| 各 生生 囊 如 全， 
的 带宽 乘 以 链 路 数量 ,代表 峰值 带宽 。 对 于 上 述 的 环 拓扑 ， 如 果 有 ”| 可 以 指 单个 链 路 的 速率 ， 
P 个 处 理 器 ， 总 网 络 带宽 将 是 一 条 链 路 带宽 的 P 倍 ， 总线 的 总 网 络 | 或 网 络 中 所 有 链 路 的 集 休 
带宽 就 是 该 总 线 的 带宽 。 eg 

为 了 避免 只 评价 最 佳 带宽 的 情况 ， 我 们 提供 了 另 一 个 更 接近 最 | ww ya 
坏 情况 的 指标 : 二 分 带宽 。 通 过 将 机 器 分 成 两 半 来 计算 该 度量 ， 然 “| 不 机 学 部 分 之 间 的 芝 宽 . 
后 将 跨越 假想 分 界线 的 链接 的 带宽 相 加 。 环 的 二 分 带宽 是 链 路 带宽 。 | 此 度量 运用 于 多 处 理 器 的 
的 两 倍 ， 是 总 线 链 路 带宽 的 一 倍 。 如 果 单 个 链 路 与 总 线 一 样 快 ， 则 ”| 好 环 情况 分 站。 


并行 处 理 器 : 从 丛 户 疯 到 去 375 








在 最 坏 的 情况 下 ， 环 路 的 速度 是 总 线 的 两 倍 ， 在 最 好 的 情况 下 ， 它 的 速度 是 总 线 的 售 。 

由 于 某 些 网 络 拓扑 不 是 对 称 的 ， 因 此 产生 的 问题 是 二 分 机 器 时 在 哪里 绘制 假想 分 界线 。 
由 于 二 分 带宽 是 最 坏 情 况 的 度量 ， 因 此 答案 是 选择 可 以 产生 最 差 网 络 性 能 的 分 区 。 换 言 之 ， 
就 是 计算 所 有 可 能 的 二 分 带宽 并 选择 其 中 最 小 的 一 个 。 我 们 之 所 以 采取 这 种 悲观 的 观点 ， 是 
因为 并 行程 序 通常 会 受到 通信 链 中 最 薄弱 链 路 的 限制 。 

环 的 另 一 个 极端 是 全 连接 网 络 ， 其 中 的 每 个 处 理 器 都 具有 到 其 他 人 
处 理 器 的 双向 链 路 。 对 于 全 连接 网 络 ， 总 网 络 带宽 为 Px ( -1) /2， | 革 二 这 本 是 理惠 办 古人 
到 分 带 痪 为 (2 点 的 网 络 。 

全 连接 网 络 对 性 能 的 巨大 提升 被 成 本 的 急剧 增长 所 抵消 。 这 种 
结果 激励 工程 师 去 发 明 新 的 拓扑 结构 ， 使 其 既 有 环 的 成 本 又 有 全 连接 网 络 的 性 能 。 对 结构 的 
评估 在 很 大 程度 上 取决 于 在 计算 机 上 运行 的 并 行程 序 工作 负载 的 通信 特点 。 

在 公开 出 版 物 中 已 经 讨论 过 的 不 同 拓扑 结构 的 数量 难以 估计 ， 但 在 商用 并 行 处 理 器 中 只 
使 用 了 少数 的 拓扑 结构 。 图 6-14 中 给 出 了 两 种 流行 的 拓扑 结构 。 


rs 
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a ) 2D 网 格 /16 个 节点 的 网 格 b ) 8 个 节点 的 n 立 方 树 ( 8=23， 因 此 n=3 ) 

图 6-14 ”出 现在 商用 并 行 处 理 器 中 的 网 络 拓 扑 。 灰 色 圆 点 表示 开关 ， 黑 色 方 块 表示 处 理 右 - 
内 存 节 点 。 尽 管 一 个 开关 有 很 多 链接 ， 但 通常 只 有 一 个 链接 连接 到 处 理 器 。 布 尔 
立方 体 拓扑 是 具有 2" 个 节点 的 n 维 互 连 ， 每 个 开关 需要 nn 个 链 路 (再 加 上 一 条 连 
接 处 理 器 的 链 路 )， 因 此 存在 个 最 近邻 节点 。 这 些 基 本 拓扑 结构 通常 会 补充 额外 
的 链 路 ， 以 提高 性 能 和 可 靠 性 


将 处 理 器 放置 在 网 络 中 的 每 个 节点 处 的 奉 代 方案 是 : 仅 在 这 些 节 点 中 的 部 分 节点 处 留 
下 小 于 处 理 器 - 内 存 - 开关 节点 的 开关 ， 这 种 开关 规模 更 小 ， 因 此 可 以 更 密集 地 打包 ， 从 而 
减 小 距离 并 提高 性 能 。 这 种 网 络 通常 被 称 为 多 级 网 络 (multistage network)， 以 反映 消息 可 
能 途经 多 个 步骤 后 才能 传播 。 多 级 网 络 的 类 型 与 单 级 网 络 一 样 多 ， 

图 6-15 是 两 个 主流 的 多 级 网 络 组 织 结构 。 全 连接 ( fully connected ) 多 级 网 络 : 在 每 个 节点 上 
或 交叉 开关 网 络 (crossbar network) 允许 任何 节点 在 通过 网 络 时 可 与 | 提供 小 型 开关 的 网 络 。 
任何 其 他 节点 通信 。Omega 网 络 所 使 用 的 硬件 少 于 交叉 开关 网 络 (前 
者 需要 2n logzn 个 开关 ， 后 者 需要 wr 个 开关 ), 但 消息 之 间 可 能 会 发 
生 和 争 用 ， 具体 取决 于 通信 模式 。 例 如 ， 图 6-15 中 的 Omega 网 络 在 
从 P; 发 送 消息 到 P4 的 同时 ， 无 法 从 Po 向 Pe 发 送 消息 。 


交叉 开关 网 络 : 允许 任何 
节点 在 通过 网 络 时 与 任何 
其 他 节点 通信 的 网 络 。 
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a ) 交叉 开关 网 络 b ) Omega 网 络 c) Omega 网 络 的 开关 盒 


图 6-15 8 个 节点 的 主流 多 级 网 络 拓扑 。 这 些 图 中 的 开关 比 之 前 图 中 的 开关 更 简单 ， 因 为 链 
路 是 单 向 的 ; 数据 从 左 侧 进入 并 从 右 侧 退出 链接 。 图 中 的 开关 盒 可 以 将 A 传送 
到 C、 将 B 传送 到 D ; 或 将 B 传送 到 C、 将 A 传送 到 DD。 交 又 开 关 网 络 使 用 局 个 
开关 ， 其 中 是 处 理 器 的 数量 ， 而 Omega 网 络 使 用 2n logzn 个 大 型 开关 盒 ， 每 个 
开关 盒 逻辑 上 由 四 个 较 小 的 开关 组 成 。 在 这 种 情况 下 ， 交 叉 开 关 网 络 使 用 64 个 开 
关 ， 而 Omega 网 络 使 用 48 个 开关 ,或 者 12 个 开关 盒 。 但 是 ， 交 叉 开 关 网 络 可 以 
支持 处 理 器 之 间 的 任何 消息 组 合 ， 而 Omega 网 络 则 不 能 


网 络 拓扑 的 实现 


对 本 节 中 提 到 的 所 有 网 络 ， 我 们 只 做 了 简单 的 分 析 ， 而 忽略 了 构建 网 络 时 需要 考虑 的 重 
要 实际 因素 。 每 个 链接 之 间 的 距离 会 影响 高 时 钟 频 率 下 通信 的 成 本 一 一 通常 ， 距 离 越 长 ， 以 
高 时 钟 频 率 运行 的 成 本 越 高 。 较 短 的 距离 也 会 使 得 为 链接 分 配 更 多 的 电线 变 得 更 容易 ， 因 为 
如 果 电 线 较 短 ， 那 么 驱动 这 些 电线 所 需要 的 功 耗 就 更 小 ， 而 且 较 短 的 电线 也 比较 长 的 电线 更 
便宜 。 另 一 个 实际 的 限制 是 : 必须 将 三 维 的 图 像 绘制 到 本 质 上 其 实 是 二 维 介质 的 芯片 上 。 最 
后 要 关注 的 是 能 耗 ， 例 如 ， 由 于 能 耗 的 限制 可 能 会 迫使 多 核 芯 片 更 依赖 于 简单 的 网 络 拓扑 。 
最 重要 的 是 ， 当 使 用 硅 片 或 数据 中 心 进行 构造 时 ， 在 黑板 上 勾勒 出 来 的 看 起 来 优雅 的 拓扑 结 
构 在 真正 制造 时 可 能 是 不 切实 际 的 。 

现在 我 们 已 经 了 解 了 集群 的 重要 性 ， 并 且 学 习 了 可 以 遵循 的 拓扑 结构 ， 接 下 来 将 会 看 到 
网 络 与 处 理 器 的 软 硬 件 接口 。 






晶 6.9 与 外 界 通信 : 集群 网 络 

本 节 是 网 络 章节 ， 描 述 了 用 于 将 集群 节点 连接 在 一 起 的 网 络 硬件 和 软件 。 示 例 中 使 用 
PCIe 连接 到 计算 机 的 万 兆 以 太 网 上 。 该 示例 显示 了 如 何 优化 软 硬 件 以 提高 网 络 性 能 ， 包 括 零 
拷贝 消息 传递 、 用 户 空间 通信 、 使 用 轮 询 而 不 是 UO 中断， 以 及 硬件 计算 校 验 和 。 虽 然 示 例 
是 互连网 络 ， 但 本 节 中 的 技术 也 适用 于 存储 控制 器 和 其 他 IO 设备 。 


溯 行 处 理 器 ， 从 俭 户 疯 到 去 3 





本 节 从 底层 详细 介绍 了 网 络 性 能 ， 下 一 节 将 从 更 高 的 层次 介绍 如 何 对 多 处 理 器 进行 基准 
测试 。 

6.10 多 处 理 器 测试 基准 和 性 能 模型 

在 第 1 章 中 我 们 看 到 ， 基 准 测 试 系统 一 直 是 一 个 敏感 话题 ， 因 为 它 是 判断 哪个 系统 更 

好 的 一 种 很 直观 的 方式 。 测 试 结果 不 仅 影响 商业 系统 的 销售 ， 还 影响 系统 设计 者 的 声誉 。 因 

此 ， 每 个 参与 者 都 希望 自己 获胜 ， 但 如 果 其 他 人 获胜 ， 他 们 也 和 希望 获胜 者 实 至 名 归 ， 因 为 他 

们 的 系统 是 真 的 好 。 这 些 期 望 导 致 测试 结果 不 能 只 是 针对 测试 基准 程序 的 简单 伎俩 ， 而 应 该 

是 能 够 真正 促进 实际 应 用 程序 的 性 能 提高 。 

为 了 避免 可 能 的 作 浆 行为 ,一 个 典型 的 原则 是 不 能 修改 基准 测试 程序 。 源 代码 和 数据 集 

是 固定 的 ， 并且 只 有 唯一 的 正确 结果 。 对 这 些 原 则 的 任何 违反 都 会 导致 测试 结果 无 效 。 

许多 多 处 理 器 基准 测试 程序 都 遵循 这 些 规则 。 一 个 共同 的 例外 是 允许 扩大 问题 规模 ， 这 
样 可 以 在 有 不 同 数量 处 理 器 的 系统 上 运行 基准 测试 程序 。 也 就 是 说 ， 许 多 基准 测试 程序 允许 
弱 比例 缩放 而 不 是 强 比例 缩放 。 但 即便 如 此 ， 在 比较 不 同 问题 规模 的 测试 结果 时 仍 要 小 心 。 

图 6-16 给 出 了 几 个 并 行 基准 测试 程序 的 总 结 ， 下 文 将 做 具体 描述 。 

e Linpack 是 一 组 线性 代数 例 程 ， 这 些 例 程 执行 高 斯 消 元 。3.5.6 节 例 题 中 的 DGEMM 

例 程 就 是 Linpack 基准 测试 程序 中 的 一 小 部 分 源 代码 ， 但 它 占 据 了 该 基准 测试 的 大 部 

分 执行 时 间 。 它 允许 弱 比 例 缩放 ， 让 用 户 选 择 任何 规模 的 问题 。 而 且 ， 只 要 保证 计 

算 结果 正确 并 对 相同 规模 的 问题 执行 相同 数量 的 浮 点 运算 。Linpack 允许 用 户 以 几乎 

任何 形式 和 任何 语言 重 写 Linpack。 计 算 Linpack 最 快 的 500 台 计 算 机 每 年 在 www. 

top500.org 发 布 两 次 。 排 名 第 一 的 计算 机 被 新 闻 界 视 为 世界 上 最 快 的 计算 机 。 

SPECrate 是 基于 SPEC CPU 基准 测试 (如 SPEC CPU 2006， 见 第 1 章 ) 的 吞吐 量 指 

标 。SPECrate 并 不 报告 各 个 程序 的 性 能 ， 而 是 同时 运行 该 程序 的 很 多 副本 。 因 此 ， 

它 测量 的 是 任务 级 并 行 性 ， 因 为 这 些 任 务 之 间 没 有 通信 。 而 且 可 以 根据 需要 运行 任意 

数量 的 程序 副本 ， 这 也 是 一 种 弱 比 例 缩放 的 形式 。 

SPLASH 和 SPLASH 2 (Stanford Parallel Applications for Shared Memory) 是 20 世纪 

90 年 代 斯 坦 福 大 学 的 研究 成 果 ， 目 的 是 提供 类 似 于 SPEC CPU 的 并 行 基准 测试 程序 。 

它 由 核心 程序 和 应 用 程序 组 成 ， 许 多 来 自 高 性 能 计算 领域 。 尽 管 该 程序 提供 了 两 组 数 

据 集 ， 但 仍 需要 强 比例 缩放 。 

NAS (NASA Advanced Supercomputing) 并 行 基准 测试 是 20 世纪 90 年 代 对 多 处 理 器 

基准 测试 程序 的 另 一 和 尝试， 由 5 个 来 源 于 流体 动力 学 的 核心 程序 构成 ， 允 许 通 过 定义 

几 个 数据 集 实 现 弱 比例 缩放 。 像 Linpack 一 样 ， 这 些 基 准 测试 程序 可 以 被 重 写 ， 但 编 

程 语言 只 能 使 用 C 或 Fortran 。 

。 最 近 的 PARSEC ( Princeton Application Repository for Shared | PThread : 创建 和 操作 线 
Memory Computer) 基准 测试 程序 集 由 Pthread (POSIX 线程 ) | 程 的 一 个 UNIX API。 它 
和 OpenMP ( Open MultiProcessing， 见 6.5 节 ) 的 多 线程 程序 | 被 组 织 成 一 个 库 的 形式 。 
组 成 。 它 们 主要 专注 于 新 兴 的 计算 领域 ， 由 9 个 应 用 程序 和 
3 个 核心 程序 构成 。 其 中 8 个 依赖 于 数据 并 行 ，3 个 依赖 于 流水 线 并 行 ， 另 一 个 依赖 
于 非 结构 化 并 行 。 

e 在 云端 ，Yahhol Cloud Serving Benchmark (YCSB) 的 目标 是 比较 云 数据 服务 的 性 能 。 
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它 通 过 使 用 Cassandra 和 HBase 作为 具有 代表 性 的 例子 ， 提 供 了 一 个 易于 让 用 户 评测 
新 数据 服务 的 框架 [Cooper，2010]。 

e 加 州 大 学 伯克利 分 校 的 研究 人 员 提 出 了 一 种 方法 。 他 们 确定 了 13 种 面向 未 来 应 用 程 
序 的 设计 模式 。 这 些 设计 模式 使 用 框架 或 核心 实现 ,一些 实 例 包括 稀 玖 矩阵、 结构 化 
网 格 、 有 限 状态 自动 机 、MapReduce 和 图 遍历 等 。 通 过 将 定义 保持 在 高 级 别 层 次 ， 他 
们 希望 鼓励 在 系统 的 任何 层次 进行 创新 。 因 此 ， 速 度 最 快 的 稀疏 和 矩阵 求解 器 的 系统 除 
了 使 用 新 型 体系 结构 和 编译 器 之 外 ， 还 可 以 使 用 任何 数据 结构 、 算 法 和 编程 语言 。 


基准 测试 程序 | 。 可 扩展 性 。 | 可 编程 性 
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图 6-16 并 行 基准 测试 程序 的 实例 
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基准 测试 程序 原 有 约束 所 造成 的 负面 影响 是 创新 被 局 限 到 体系 结构 和 编译 器 中 。 更 好 的 
数据 结构 、 算 法 、 编 程 语言 等 通常 不 能 被 使 用 ， 因 为 这 些 可 能 产生 容易 令 人 误解 的 结果 。 这 
样 系统 可 能 因为 算法 而 获胜 ， 而 不 是 因为 硬件 或 编译 器 。 

虽然 这 些 准则 在 计算 基础 相对 稳定 时 是 可 以 理解 的 一 一 因为 它们 是 在 20 世纪 90 年 代 提 
出 的 ， 而 且 是 在 90 年 代 的 前 5 年 一 一 但 是 ,这些 准则 在 编程 变革 中 就 不 合 时宜 了 。 要 使 变 
革 成 功 ， 我 们 需要 鼓励 各 个 层次 的 创新 。 


6.10.1 性 能 模型 


与 基准 测试 程序 相关 的 一 个 话题 是 性 能 模型 。 正 如 我 们 在 本 章 中 看 到 越 来 越 多 的 体系 结 
构 多 样 性 一 一 多 线程 、SIMD 、GPU 一 一 如 果 我 们 有 一 个 简单 的 模型 来 分 析 不 同体 系 结构 设 
计 的 性 能 ， 将 是 十 分 有 益 的 。 这 个 模型 不 一 定 是 完美 的 ， 只 要 有 所 见地 就 行 。 

第 5 章 中 用 于 分 析 cache 性 能 的 3C 模型 是 性 能 模型 的 一 个 例子 。 它 不 是 一 个 完美 的 性 
能 模型 ， 因 为 它 忽 略 了 块 大 小 、 块 分 配 策略 和 块 替换 策略 等 潜在 的 重要 因素 。 而 且 ， 它 还 存 
在 一 些 含糊 其 辞 的 地 方 。 例 如 ,一 次 失效 在 一 种 设计 中 可 以 归 为 容量 失效 ， 而 在 同样 容量 的 
另 一 个 cache 中 可 以 归 为 冲突 失效 。 然 而 ，3C 模型 已 经 流行 了 25 年 ， 因 为 它 提供 了 对 程序 
行为 的 深入 理解 ， 有 助 于 体系 结构 设计 者 和 程序 员 根 据 对 该 模型 的 观察 改进 他 们 的 创新 成 果 。 

为 了 找到 并 行 计算 机 的 这 种 模型 ， 让 我 们 从 小 的 核心 程序 开始 ， 如 图 6-16 的 13 个 
Berkeley 设计 模式 。 尽 管 这 些 核心 程序 的 不 同 数据 类 型 有 许多 版 本 ,但 浮 点 在 几 种 实现 中 很 
常见 。 因 此 ， 在 给 定 的 计算 机 上 峰值 浮 点 性 能 是 这 类 核心 程序 的 速度 瓶颈 。 对 于 多 核 芯片 ， 
峰值 浮 点 性 能 是 芯片 上 所 有 处 理 器 核 峰 值 性 能 的 上 总和。 如果 系统 中 包含 多 个 处 理 器 ， 那 么 应 
该 将 每 个 芯片 的 峰值 性 能 与 芯片 总 数 相 乘 。 

对 存储 器 系统 的 需求 可 以 用 峰值 浮 点 性 能 除 以 每 访问 一 字 节 所 包含 浮 点 操作 数 的 平均 值 
来 估算 : 








浮 点 操作 数 / 秒 
浮 点 操作 数 / 字 节 
存储 器 每 访问 一 字 节 所 包含 的 浮 点 运算 比例 称 为 算术 强度 | 算术 强度 ， 一 个 程序 中 浮 
(arithmetic intensity)。 它 的 计算 可 以 用 程序 中 浮 点 运算 的 总 数 除 以 ”| 点 操作 数量 与 访问 内 存 字 
程序 执行 期 间 内 存 传输 数据 的 总 字 节 数 。 图 6-17 给 出 了 图 6-16 中 上 | 节 数量 的 比值 
几 种 Berkeley 设计 模式 的 算术 强度 。 


CA O(log(N) 2 


= 字 节 / 秒 







频 域 方法 
( 快速 傅 里 叶 变 换 ) 
稀疏 矩阵 ”结构 网 格 稠密 矩阵 N 体 
( 稀疏 矩阵 ( 模板 偏 微 | 结构 网 格 ( BLAS3 ) ( 粒子 方法 ) 
向 量 乘 ) ”分 方程 ) ( Lattice 方 法 ) 


图 6-17 算术 强度 ， 计 算 方式 为 运行 程序 中 的 浮 点 运算 总 数 除 以 访问 内 存 的 总 字 节 数 
[Williams，Waterman，and Patterson，2009]。 一 些 核心 程序 的 算术 强度 与 问题 规模 
成 比例 扩展 ， 例 如 密集 矩阵 ， 但 是 也 有 许多 核心 程序 的 算术 强度 与 问题 规模 无 关 。 
对 于 前 者 ， 弱 比例 缩放 可 能 会 导致 不 同 的 结果 ， 因 为 它 对 存储 系统 的 需求 不 是 很 大 
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6.10.2 ”Roofline 模型 


本 节 提 出 的 简单 模型 将 浮 点 性 能 、 算 术 强 度 和 内 存 性 能 结合 在 一 张 二 维 图 中 [Williams， 
Waterman, and Patterson, 2009]。 峰值 浮 点 性 能 可 以 在 上 面谈 到 的 硬件 规格 说 明 书 中 找到 。 
我 们 在 这 里 考虑 的 核心 程序 的 工作 集 不 适合 使 用 片上 cache， 因 此 峰值 内 存 性 能 可 以 由 cache 
后 面 的 存储 系统 定义 。 获 取 峰 值 内 存 性 能 的 一 种 方法 是 使 用 流 式 基准 测试 程序 ( 见 5.2.2 节 
的 “详细 阐述 ”)。 

图 6-18 给 出 了 针对 一 台 计 算 机 的 模型 ， 注 意 不 是 针对 每 个 核心 程序 的 模型 。7 了 轴 表 示 浮 
点 性 能 ， 范 围 是 0.5 ~ 64.0GFLOP/s。 针 轴 表 示 算 术 强 度 ， 范 围 是 1/8FLOP/DRAM 字 节 一 16 
FLOP/DRAM 字 节 。 注 意 该 图 是 log-log 比例 。 

对 于 给 定 的 核心 程序 ， 我 们 可 以 根据 其 算术 强度 在 站 轴 上 找到 对 应 点 。 如 果 我 们 在 该 点 
绘制 一 条 垂直 线 ， 那 么 该 核心 程序 在 计算 机 上 的 性 能 一 定 在 该 垂直 线 的 某 个 位 置 上 。 我 们 可 
以 画 一 条 水 平 线 表 示 该 计算 机 的 峰值 浮 点 性 能 。 显 然 ， 实际 的 浮 点 性 能 不 会 超过 该 水 平 线 ， 
因为 这 是 一 个 硬件 上 限 。 


可 获得 的 GFLOP/s 





算术 强度 : FLOP/byte 比 

图 6-18 Roofline 模 型 [Williams，Waterman，and Patterson，2009]。 本 例 具 有 16GFLOP/s 
的 峰值 浮 点 性 能 和 16GB/s 的 峰值 内 存 带宽 ， 该 数据 来 自流 式 测试 程序 。( 由 于 实际 
上 是 四 次 测量 ， 图 中 的 线 是 四 次 的 平均 值 。) 左边 的 虚线 表示 核心 程序 1， 其 算术 强 
度 为 0.5FLOP/byte。 在 Opteron X2 上 ， 受 限于 低 于 8GFLOP/s 的 内 存 带宽 。 右 边 
的 虚 垂 直线 表示 核心 程序 2， 其 算术 强度 为 4FLOP/byte。 它 只 受 限 于 16GFLOP/s 
的 计算 (该 数据 基于 AMD Opteron X2 (版 本 FE)， 使 用 双 socket 系统 中 的 2GHz 的 
双核 ) 


我 们 如 何 画 出 峰值 内 存 性 能 呢 (以 byte/s 为 单位 ) ? 由 于 X 轴 是 FLOP/byte, 了 轴 是 
FLOP/s， 因 此 byte/s 只 是 图 中 一 条 45° 的 对 角 线 。 因 此 ， 我 们 可 以 绘制 出 第 三 条 线 来 表示 对 
于 给 定 的 算术 强度 ， 该 计算 机 存储 系统 所 能 支持 的 最 大 浮 点 性 能 。 我 们 可 以 用 下 面 的 公式 表 
示 该 界限 ， 以 便 在 图 6-18 中 画 出 该 线 : 


可 达到 的 GFLOP/s = min (峰值 存储 带宽 x 算术 强度 ,峰值 浮 点 性 能 ) 
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水 平 线 和 对 角 线 给 出 了 简单 模型 的 名 称 并 标 出 了 对 应 值 。 这 个 像 屋顶 一 样 的 轮廓 线 设 定 
了 一 个 核心 程序 在 不 同 算术 强度 下 的 性 能 上 界 。 给 定 一 个 计算 机 的 Roofline 模型 ， 你 可 以 重 
复 地 使 用 它 ， 因 为 它 不 会 随 核心 程序 而 变化 。 

如 果 我 们 认为 算术 强度 是 支撑 屋顶 的 一 根 杆 ,那么 它 要 人 么 支撑 屋顶 的 平坦 部 分 ， 这 表示 
性 能 受 计 算 限 制 ; 要么 支撑 屋顶 的 倾斜 部 分 ， 这 表示 性 能 受 存储 器 带宽 限制 。 在 图 6-18 中 ， 
核心 程序 1 属于 前 者 ， 而 核心 程序 2 属于 后 者 。 

需要 注意 的 是 “ 疹 点 "， 它 是 屋顶 平坦 部 分 与 倾斜 部 分 的 交叉 点 ， 这 对 计算 机 来 说 是 一 
个 关键 点 。 如 果 它 过 于 靠 右 ， 那么 只 有 极 高 算术 强度 的 核心 程序 才能 获得 最 大 性 能 。 如 果 它 
过 于 靠 左 ， 那 么 几乎 所 有 核心 程序 都 可 以 达到 最 大 性 能 。 


6.10.3 ”两 代 Opteron 的 比较 


四 核 AMD Opteron X4 ( Barcelona) 是 两 核 Opteron X2 的 后 续 版 本 。 为 了 简化 主板 设 
计 ， 它 们 使 用 了 相同 的 插座 。 因 此 ， 它 们 具有 相同 的 DRAM 通道 ， 也 就 具有 相同 的 峰值 存 
储 带 宽 。 除 了 将 核心 程序 数量 加 倍 之 外 ，Opteron X4 还 将 每 个 核 的 峰值 浮 点 性 能 提高 到 原来 
的 两 倍 : Opteron X4 核 可 以 在 每 个 时 钟 周期 发 射 两 条 浮 点 SSE2 指令 ， 而 Opteron X2 核 最 
多 只 能 发 射 一 条 。 由 于 我 们 比较 的 两 个 系统 具有 接近 的 时 钟 速率 一 一 Opteron X2 为 2.2GHz， 
Opteron X4 为 2.3GHz 一 一 所 以 Opteron X4 的 峰值 浮 点 性 能 是 Opteron X2 的 四 倍 ， 而 两 者 的 
DRAM 带宽 完全 相同 。Opteron X4 还 有 一 个 2MiB L3 cache， 而 Opteron X2 没有 。 

图 6-19 比较 了 两 个 系统 的 Roofline 模型 。 正 如 我 们 所 期 望 的 那样 ， 疹 点 向 右 移 动 了 ， 从 
Opteron X2 中 的 1 移动 到 Opteron X4 中 的 5。 因 此 ,为 了 看 到 下 一 代 Opteron 处 理 需 性 能 的 改 
进 ， 核 心 程序 的 算术 强度 必须 大 于 1， 或 者 核心 程序 的 工作 集 必须 适合 Opteron X4 的 cache。 

Roofline 模型 给 出 了 性 能 的 上 限 。 假 设 你 的 程序 远 低 于 该 上 限 。 那 么 应 该 进行 哪些 优化 
呢 ?” 以 什么 顺序 执行 这 些 优化 ? 

为 了 克服 计算 瓶颈 ， 以 下 两 种 优化 可 以 
改进 几乎 任何 核心 程序 : 

1. 浮 点 运算 组 合 。 计 算 机 的 峰值 浮 点 性 Fe 
能 通常 需要 几乎 同时 的 等 量 加 法 和 乘法 运算 。 ne 
这 种 均衡 不 仅 是 因为 计算 机 支持 融合 的 乘 加 指 
令 ( 见 3.5.7 节 的 “详细 阐述 ” )， 也 因为 浮 点 












Opteron X4 (Barcelona) 
be p> 





16.0 


可 获得 的 GFLOP/s 
oo 
o 


单元 具有 相同 数量 的 浮 点 加 法 器 和 浮 点 乘法 i 
器 。 最 佳 性 能 也 需要 大 部 分 浮 点 运算 和 非 整 数 2.0 
站 令 混合 。 1.0 


2. 提高 指令 级 到 生 性 并 应 用 SIMD。 对 于 
现代 的 体系 结构 ， 最 高 性 能 在 每 个 时 钟 周期 取 
指 、 执 行 并 提交 3 一 4 条 指令 时 才能 获得 ( 见 
4.10 节 )。 这 一 步 的 目标 是 从 编译 器 角度 改进 
代码 以 增加 ILP。 正 如 我 们 在 4.12 节 看 到 的 ， 


0Q:5 . 
/0 工本- 二 6 
实际 的 FLOP/byte 比 
6-19 两 代 Opteron 的 Roofline 模型 。Opteron 
X2 的 Roofline 与 图 6-18 相 同 ， 使 用 
黑色 绘制 ，Opteron X4 使 用 灰色 绘制 。 


一 种 方法 是 循环 展开 。 对 于 x86 体系 结构 ， 单 Opteron X4 较 大 的 冰点 意味 着 原来 在 
个 AVX 指令 可 以 操作 4 个 双 精 度 操作 数 ， 因 Opteron X2 中 是 计算 受 限 的 核心 程序 


此 应 尽 可 能 使 用 它们 ( 见 3.7 节 和 3.8 节 )。 在 Opteron X4 中 可 能 是 存储 性 能 受 限 
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为 了 克服 内 存 瓶 颈 ， 可 以 采用 以 下 两 种 优化 方法 : 

1. 软件 预 取 (software prefetching)。 通 常 ， 最 高 性 能 需要 保持 许多 访 存 操作 一 直 运 行 ， 
通过 执行 软件 预 取 指令 来 疾 测 访 存 可 以 更 加 容易 地 满足 这 个 需要 ， 而 不 是 等 到 计算 需要 该 数 
据 时 才 进 行 访 存 。 

2. 内 存 关联 ( memory affinity)。 现 在 大 多 数 的 微 处 理 器 都 在 片 内 包含 了 内 存 控制 器 ， 它 能 
提高 条 盔 层次 的 性 能 。 如 果 系统 中 含有 多 个 芯片 ， 这 就 会 使 一 些 地 址 访问 本 地 DRAM， 而 其 
他 地 址 需要 通过 芯片 互 连 才 能 访问 对 于 其 他 芯片 是 本 地 的 DRAM。 这 种 分 裂 会 导致 我 们 在 6.5 
节 介 绍 的 非 一 致 性 访 存 。 通 过 另 一 个 芯片 访 存 会 降低 性 能 。 第 二 个 优化 是 尽量 将 数据 和 操作 该 
数据 的 线程 分 配给 相同 的 存储 器 - 处 理 器 对 ， 这 样 处 理 器 很 少 需要 访问 其 他 芯片 上 的 存储 。 

Roofline 模型 可 以 帮助 确定 选择 哪些 优化 方法 ， 以 及 以 什么 顺序 执行 优化 。 我 们 可 以 认 
为 这 些 优化 的 每 一 个 都 是 适当 的 Roofline 下 方 的 “天 花 板 ”"”， 也 就 是 说 ， 如 果 不 执行 相应 的 
优化 ， 就 不 能 突破 天 花 板 。 

计算 性 能 Roofline 可 以 在 手册 中 找到 ， 而 存储 Roofline 则 可 以 通过 运行 流 式 基准 测试 
程序 获得 。 计 算 性 能 的 上 限 ， 例 如 浮 点 均衡 ， 也 可 以 来 自 该 计算 机 的 手册 。 内 存 性 能 的 天 花 
板 ， 例 如 内 存 关 联 ， 需 要 在 每 台 计 算 机 上 运行 实验 以 确定 它们 之 间 的 差距 。 好 消息 是 ， 这 个 
过 程 只 需要 在 每 台 计算 机 上 进行 一 次 ， 只 要 有 人 完成 了 对 该 计算 机 天 花 板 的 评估 ， 任 何人 都 
可 以 使 用 该 结果 指导 该 计算 机 优化 的 先后 次 序 。 

6-20 为 图 6-18 中 的 Roofline 模型 添加 了 天 花 板 ， 其 中 上 图 给 出 了 计算 天 花 板 ， 下 图 
给 出 了 存储 带宽 天 花 板 。 尽 管 较 高 的 天 花 板 没有 标记 ， 但 是 其 隐 含 使 用 了 全 部 优化 手段 ; 为 
了 突破 最 高 的 天 花 板 ， 首 先 必须 突破 所 有 下 面 的 天 花 板 。 
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算术 强度 : FLOP/byte 比 算术 强度 : FLOP/byte 比 
图 6-20 带 天 花 板 的 Roofline 模型 。 上 图 表示 计算 性 能 的 “天 花 板 ”，1 表示 浮 点 运算 失衡 
情况 下 性 能 为 8GFLOP/s，2 表示 同时 未 使 用 ILP 和 SIMD 下 的 性 能 为 2GFLOP/s。 
下 图 表示 没有 软件 预 取 的 存储 带宽 上 限 为 11GB/s， 如 果 同 时 没有 内 存 关 联 优化 ， 
则 为 4.8GB/s 


天 花 板 之 间 间 隙 的 宽度 和 下 一 个 更 高 的 限制 表示 优化 之 后 的 收益 。 因 此 ， 图 6-20 建议 
优化 2 和 4。 其 中 2 是 改善 ILP， 对 于 改善 该 计算 机 的 计算 有 很 大 益处 ; 4 是 改善 内 存 关联 ， 
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对 于 改善 该 计算 机 的 存储 带宽 有 很 大 益处 。 

图 6-21 将 图 6-20 的 天 花 板 整合 成 一 个 图 。 核 心 程序 的 算术 强度 决定 了 优化 区 域 ， 优 化 
区 域 反 过 来 又 给 出 了 哪些 优化 手段 可 以 尝试 。 需 要 注意 的 是 ， 对 大 多 数 算术 强度 ， 计 算 优化 
和 存储 带宽 优化 都 是 重 亚 的 。 图 6-21 中 有 三 处 不 同 的 阴影 标记 ， 表 示 不 同 的 优化 策略 。 例 
如 ， 核 心 程序 2 位 于 右 侧 的 梯形 中 ， 表 明 只 工作 在 计算 优化 上 。 核 心 程序 1 位 于 中 间 的 平行 
四 边 形 中 ， 表 示 两 种 优化 均 可 尝试 。 此 外 ， 它 建议 从 优化 2 和 4 开始。 注意 到 核心 程序 1 的 
垂直 线 低 于 浮 点 失衡 优化 ， 因 此 优化 1 是 没有 必要 的 。 如 果 核 心 程序 落 在 左下 角 的 三 角形 区 
域 ， 则 表示 只 需 进 行 存储 优化 即 可 。 


可 获得 的 GFLOP/s 


; 核心 程序 1 ; 核心 程序 2 
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算术 强度 : FLOP/byte 比 
图 6-21 将 图 6-18 中 两 图 重 辣 的 Roofline 模型 。 算 术 强 度 落 在 右边 梯形 的 核心 程序 应 该 着 
重 于 计算 优化 ， 而 处 于 三 角形 区 域 的 核心 程序 应 当 着 重 于 存储 带宽 优化 。 处 于 平行 
四 边 形 区 域 的 核心 程序 两 种 优化 都 应 当 考 虑 。 例 如 核心 程序 1 落 在 中 间 的 平行 四 边 
形 中 ， 可 尝试 优化 ILP 和 SIMD、 内 存 关联 、 软 件 预 取 等 。 核 心 程序 2 落 在 右边 的 
梯形 区 域 ， 可 尝试 优化 ILP 和 SIMD 以 及 浮 点 运算 均衡 


到 目前 为 止 , 我 们 一 直 假 设 算术 强度 是 固定 的 ， 但 事实 并 非 如 此 。 首 先 ， 有 些 核心 程序 
的 算术 强度 会 随 问题 规模 增长 ， 例 如 密集 矩阵 和 N 体 问 题 ( 见 图 6-17 )。 实 际 上 ， 这 就 是 程 
序 员 处 理 弱 比例 缩放 比 强 比 例 缩放 更 成 功 的 原因 之 一 。 其 次 ， 膝 釉 展 次 结构 的 有 效 性 会 影响 
到 访 存 次 数 ， 因 此 提高 cache 性 能 的 优化 也 会 提高 算术 强度 。 一 个 例子 是 通过 展开 循环 ， 并 
将 使 用 相近 地 址 的 语句 分 组 在 一 起 来 改善 时 间 局 部 性 。 许 多 计算 机 都 有 特殊 的 cache 指令 ， 
故 可 以 先 将 数据 分 配 到 缓存 中 ， 而 不 用 先 从 存储 器 中 填充 ， 因 为 它 可 能 很 快 被 改写 。 这 两 种 
优化 都 降低 了 访 存 流量 ， 因 此 可 以 将 算术 强度 乘 以 一 个 系数 (如 1.5 ) 以 向 右 移动 ， 这 种 右 
移 会 使 核心 程序 移 到 一 个 不 同 的 优化 区 域 。 

虽然 上 面 的 例子 展示 了 如 何 帮 助 程序 员 提 高 程序 的 性 能 ， 但 同时 架构 师 也 可 以 使 用 该 模 
型 来 决定 硬件 的 哪些 部 分 应 该 优化 ， 以 提升 他 们 认为 重要 的 核心 程序 的 性 能 。 

下 一 节 将 使 用 Roofline 模型 来 分 析 多 核 微 处 理 器 和 GPU 的 性 能 差异 ， 并 了 解 这 些 差异 
是 否 反 映 了 真实 程序 的 性 能 。 

| 详细 阐述 ”天花板 是 分 层次 的 ， 最 低 的 天 花 板 是 最 容易 优化 的 。 显 然 ， 程 序 员 可 以 按 
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任意 顺序 优化 ， 但 是 遵从 建议 的 顺序 可 以 避免 将 时 间 浪 费 在 因 其 他 约束 而 无 效 的 优化 上 。 和 
3C 模型 类 似 ， 只 要 模型 进行 了 抽象 ， 就 会 存在 一 些 理想 的 假设 。 例 如 ，Roofline 模型 是 假定 
程序 在 所 有 处 理 器 间 负 载 均衡 的 。 

| 开本 忆 | 一 种 替换 流 式 基准 测试 的 方案 是 使 用 原始 DRAM 带宽 作为 Roofline。 虽 然 
原始 带宽 肯定 是 一 个 硬 上 限 ， 但 是 存储 器 的 实际 性 能 往往 与 此 相差 甚 远 ， 因 此 可 用 性 不 高 。 
也 就 是 说 ， 没 有 程序 可 以 接近 该 上 限 。 使 用 流 式 基准 测试 的 缺点 是 非常 仔细 的 编程 有 可 能 获 
得 超过 流 的 结果 ， 因 此 内 存 Roofline 不 像 计 算 Roofline 一 样 坚实 。 我 们 坚持 使 用 流 式 基准 测 
试 是 因为 很 少 有 程序 员 能 够 做 到 这 一 点 。 

| 详细 阐述 尽管 Roofline 模型 适用 于 多 核 处 理 器 ， 但 它 显然 也 适用 于 单 处 理 器 。 

“自我 检测 ”对 与 错 : 评测 并 行 计算 机 的 传统 方法 的 主要 缺点 是 确保 公平 性 的 同时 压制 了 创新 。 








6.11 实例 : 评测 Intel Core i7 960 和 NVIDIA Tesla GPU 的 Roofline 模型 


一 组 Intel 研究 人 员 发 表 了 一 篇 论文 [Lee et al.，2010]， 比 较 了 带 有 多 媒体 SIMD 扩展 
的 四 核 Intel Core i7 960 与 前 一 代 的 GPU (NVIDIA Tesla GTX 280 )。 图 6-22 列 出 了 两 个 系 
统 的 特点 。 这 两 款 产 品 都 是 在 2009 年 秋季 购买 的 。Core i7 采用 Intel 的 45 纳米 半导体 工艺 ， 
而 GPU 采用 TSMC 的 65nm 工艺 。 虽 然 由 中 立 机 构 或 对 两 种 产品 都 感 兴趣 的 机 构 进行 比较 
可 能 更 公平 ， 但 本 节 的 目的 不 是 说 明 一 种 产品 比 另 一 种 产品 快 多 少 ， 而 是 尝试 理解 这 两 种 截 
然 不 同 的 结构 特性 。 


EE a GTX280 | GTX480 | 比值 28017 | 比值 48017 
em 4 | 30 | 15 | 75 [ 35 | 
时 钟 频 率 ( GHz ) 1.4 0.41 0.44 
ART 本 


功 耗 ( 芯片 ， 不 是 模 组 ) 130 130 167 
晶体 管 数量 700 M 1400 M 3030 M 0 4.4 


内 存 带 宽 ( GByte/s ) 

| 单 精度 SIMDA 度 | | 
| 
| 63 | 46 | 
1515 或 1344 | 


| 
Wo | 2 | 1 | 
| | 
i 





























1 
单 精度 SIMD 运 算 峰 值 性 能 ( GFLOP/s ) | 102 | 311~933 |515 或 1344 
[SP a 


(SP 1 中 融合 和 加 部 件 】 G27 
(933 不 支持 (9.1) 
双 精 度 SIMD 运算 峰值 性 能 ( GFLOP/s ) 78 1.5 10.1 


( 双 发 射 SP 包括 融合 的 乘 加 部 件 和 乘法 部 件 ) 
图 6-22 ”Intel Core i7-960、NVIDIA GTX 280 和 GTX 480 的 规格 。 最 右边 的 两 列 展示 了 Tesla 
GTX 280 和 Fermi GTX 480 与 Core i7 的 比值 。 尽 管 例 子 研究 的 是 Tesla 280 和 这， 
但 是 我 们 也 给 出 了 Fermi 480 与 Tesla 280 的 对 比 ， 因 为 本 章 中 介绍 到 了 这 点 。 注 意 
这 里 的 内 存 带 宽 比 图 6-23 中 的 要 高 ， 因 为 这 里 是 DRAM 引 脚 的 带宽 ， 图 6-23 中 的 
是 通过 测试 程序 得 到 的 处 理 器 访 存 的 带宽 (本 表 来 自 Lee et al.[2010] 中 的 表 2 ) 
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图 6-23 的 Core i7 960 和 GTX 280 的 Roofline 模型 展示 了 两 款 计算 机 的 区 别 。GTX 280 
不 仅 具 有 更 高 的 内 存 带 宽 和 双 精 度 浮 点 性 能 ， 而 且 其 双 精 度 浮 点 疹 点 也 更 靠 左 。GTX 280 的 
双 精 度 浮 点 性 能 疹 点 在 0.6， 而 Core i7 的 在 3.1。 前 面 曾 提 到 ，Roofline 的 疹 点 越 靠 左 ， 越 容 
易 达 到 峰值 性 能 。 对 于 单 精度 性 能 ， 这 两 个 计算 机 的 疹 点 都 更 靠 右 一 些 ， 因 此 要 达到 单 精度 
性 能 的 峰值 会 更 难 。 请 注意 ,算术 强度 是 基于 访 存 的 字 节 数 ， 而 不 是 基于 访问 cache 的 字 节 
数 。 因 此 ， 就 像 之 前 提 到 的 ， 若 大 部 分 访 存 请 求 都 访问 cache， 那 么 cache 可 以 改变 特定 计 
算 机 上 的 核心 程序 的 算术 强度 。 再 次 注意 ， 对 于 这 两 种 结构 ， 我 们 计算 内 存 带宽 时 都 采用 的 
是 单位 步 长 的 访问 。 但 是 我 们 即将 看 到 ， 真 实 的 存储 访问 模式 〈 聚 集 - 分散 ) 在 GTX 280 和 
Core i7 上 会 更 慢 一 些 。 

通过 分 析 最 近 提出 的 四 个 基准 测试 程序 的 计算 特性 和 访 存 特 性 ， 研 究 人 员 选 择 基 准 测试 程 
序 ， 并 制定 了 计算 吞吐 量 的 核心 程序 集 (throughput computing kernels) 以 捕获 这 些 特征 。 图 6-24 
展示 了 性 能 结果 ， 数 字 越 大 表明 速度 越 快 。Roofline 模型 帮助 说 明了 本 例 中 的 相对 性 能 。 

原始 的 性 能 配置 参数 变化 范围 很 大 ，GTX 280 的 时 钟 频率 是 Core i7 的 1/2.5， 而 核 数 是 
Core i7 的 7.5 倍 。 同 时 性 能 评测 结果 变化 范围 也 很 大 ， 对 于 Solv 程序 ，GTX 280 是 Core i7 
的 1/2， 而 对 于 GJK 程序 ，GTX 280 比 Core i7 快 15.2 倍 ，Intel 的 研究 人 员 决 定 找 出 其 中 的 
原因 。 

e 内 存 带 宽 。GPU 的 内 存 带宽 是 Core i7 的 4.4 倍 ， 这 解释 了 为 什么 GPU 运行 LBM 和 

SAXPY 的 速度 比 Core i7 快 5.0 和 5.3 倍 ; 由 于 这 些 程序 的 工作 集 是 几 百 兆 字 节 ， 因 
此 数据 不 能 在 Core i7 的 cache 中 全 放下 (为 了 密集 地 访 存 ， 他 们 特意 不 使 用 第 $ 章 
中 的 cache 分 块 技 术 )。 因 此 ，Roofline 模型 的 斜率 反映 了 它们 的 性 能 (这 是 log-log 
图 的 斜率 )。SpMYV 也 有 一 个 很 大 的 工作 集 ， 但 GTX 的 运行 速度 只 比 Core 这 快 了 1.9 
倍 ， 这 是 因为 GTX 280 的 双 精 度 浮 点 运算 性 能 只 是 Core i7 的 1.5 倍 。 
计算 带宽 。 剩 下 的 核心 程序 中 有 5 个 是 受 限于 计算 强度 的 : SGEMM、Conv、FFT、 
MC 和 Bilat。GTX 运行 这 5 个 程序 时 分 别 比 Core 订 快 3.9、2.8、3.0、1.8 和 5.7 倍 。 
其 中 前 三 个 是 单 精度 浮 点 运算 ，GTX 280 单 精 度 浮 点 运算 比 Core 这 快 3 一 6 倍 。 
MC 是 双 精 度 浮 点 运算 ， 因 为 GTX 280 的 双 精 度 浮 点 运算 性 能 仅 比 Core 这 快 1.5 倍 ， 
这 解释 了 为 什么 它 只 比 Core 这 快 1.8 倍 。Bilat 使 用 GTX 280 直接 支持 的 超越 函数 。 
而 Core i7 执行 Bilat 时 ， 三 分 之 二 的 时 间 用 来 计算 超越 刺 数 ， 所 以 GTX 280 比 Core 
i7 要 快 5.7 倍 。 这 些 观察 指出 由 硬件 支持 工作 负载 的 特定 操作 ( 双 精 度 浮 点 运算 、 超 
越 函 数 ) 很 有 意义 。 
从 cache 获得 的 好 处 。GTX 上 运行 Ray Cast (RC) 只 比 Core 这 快 1.6 倍 ， 这 是 因为 
Core i7 使 用 的 cache 分 块 技 术 使 得 RC 不 受 内 存 带宽 限制 ( 见 5.4 节 和 5.14 节 )， 在 
GPU 上 也 不 受 内 存 带 宽 限 制 。cache 分 块 技术 还 有 助 于 Search 程序 。 如 果 索 引 树 小 
到 可 以 在 cache 中 装 下 ， 那 么 Core i7 的 速度 会 是 GTX 的 2 倍 。 较 大 的 索引 树 会 使 
程序 受 限 于 内 存 带宽 。 总 体 而 言 ，GTX 280 在 运行 Search 程序 时 比 Core 这 快 1.8 
党 。cache 分 块 技术 也 有 助 于 Sort 程序 。 虽 然 大 多 数 程序 员 不 会 在 SIMD 处 理 器 上 运 
行 Sort， 但 可 以 用 “split” 的 1 位 Sort 原 语 编写 。split 算法 执行 的 指令 数 远 多 于 标量 
Sort。 所 以 ，Core i7 运行 Sort 程序 的 速度 是 GTX 280 的 1.25 倍 。 注 意 ，cache 分 块 技 
术 也 使 得 SGEMM、FFT 和 SpMYV 成 为 受 限 于 计算 的 程序 ， 所 以 cache 对 于 Core i7 上 
的 其 他 核心 程序 也 有 帮助 。 这 一 观察 再 次 强调 了 第 5 章 中 cache 分 块 技术 的 重要 性 。 
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图 6-23 
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1 人 
算术 强度 


Roofline 模型 [Williams，Waterman，and Patterson，2009]。 前 两 张 图 给 出 了 双 精 度 
浮 点 性 能 ， 后 面 两 张 图 给 出 了 单 精度 浮 点 性 能 。( 双 精度 浮 点 性 能 的 Roofline 同时 
也 在 单 精 度 浮 点 性 能 的 图 中 画 出 了 ， 并 给 出 对 比 。) 左边 Core i7 960 的 双 精 度 浮 点 
性 能 峰值 为 51.2GFLOP/s， 单 精度 浮 点 性 能 峰值 为 102.4GFLOPMS， 内 存 带宽 峰值 
为 16.4GB/s。NVIDIA GTX 280 的 双 精 度 浮 点 性 能 峰值 为 78GFLOP/s， 单 精度 浮 
点 性 能 峰值 为 624GFLOP/s， 内 存 带宽 峰值 为 127GB/s。 图 中 左 侧 的 垂直 虚线 表示 
0.5FLOP/byte 的 算术 强度 。Core i7 的 浮 点 性 能 受 内 存 带 宽 的 限制 不 超过 8GFLOP/s 
(对 于 双 精 度 浮 点 和 单 精度 浮 点 都 如 此 )。 图 中 右 侧 的 垂直 虚线 表示 4FLOP/byte 的 
算术 强度 ， 在 Core i7 上 限制 在 51.2GFLOP/s ( 双 精 度 浮 点 性 能 ) 到 64GFLOP/s 
( 单 精度 浮 点 性 能 ) 之 间 , 在 GTX 280 上 限制 在 78GFLOP/s ( 双 精 度 浮 点 性 能 ) 到 
624GFLOP/s ( 单 精度 浮 点 性 能 ) 之 间 。 为 了 在 Core i7 上 达到 最 高 的 运算 率 ， 需 要 
使 用 全 部 4 个 核 和 SSE 指令 ， 并 且 乘 法 器 和 加 法 器 的 数量 相等 。 对 于 GTX 280， 
你 需要 在 所 有 多 线程 的 SIMD 处 理 器 上 使 用 混合 的 乘 加 指令 
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核心 程序 Corei7-960 | GTX 280 |GTX 2801i7-960 
94 364 3.9 












































SGEMM | GFLOP/s | 364 | ; 
MC 十 亿 条 路 径 / 秒 0.8 1.8 
Conv 百 万 像素 / 秒 1250 3500 2.8 
FFT GFLOP/s 71.4 3.0 
SAXPY “| GByte/ 秒 16.8 88.8 5.3 
LBM 百 万 次 查找 / 秒 85 426 5.0 
Solv 帧 / 秒 103 52 0.5 
SpMV GFLOP/s 4.9 1.9 
GJK 帧 / 秒 站 67 1020 15.2 
| sor ”| 下 万 个 元 素 / 秒 250 198 0.8 
RC 帧 / 秒 | 5 1.6 
Search 百 万 次 查询 / 秒 50 90 1.8 
Hist 百 万 像素 / 秒 1517 1.7 
Bilat 百 万 像素 / 秒 83 475 5.7 





图 6-24 ”两 个 平台 测量 得 到 的 原始 和 相对 性 能 数据 。 在 这 项 研究 中 ，SAXPY 只 用 来 对 内 存 
带宽 进行 测量 ， 所 以 右边 的 单位 是 GByte/s 而 不 是 GFLOP/s (基于 Lee et al.[2010] 
中 的 表 3 ) 


e 聚集 -分散 。 如 果 数 据 分 散在 内 存 中 的 各 个 地 方 ， 多 媒体 SIMD 扩展 几乎 没有 什么 用 
途 。 只 有 访问 的 数据 是 16 字 节 对 齐 时 才 会 获得 最 佳 性 能 。 因 此 ，GJK 在 Core i7 上 从 
SIMD 中 获得 的 好 处 很 少 。 就 像 前 面 提 到 过 的 ，GPU 提供 的 向 量 结构 支持 聚集 - 分 散 
技术 ， 而 大 部 分 SIMD 扩展 不 支持 。 内 存 控制 器 会 成 批 地 访问 同一 个 DRAM 页 的 请 
求 ( 见 5.2 节 )。 这 两 点 使 得 GTX 280 运行 GJK 的 速度 是 Core i7 的 15.2 倍 ， 这 个 数 
字 比 图 6-22 中 的 任何 物理 参数 都 要 大 。 这 一 观察 强调 了 聚集 - 分 散 技术 对 于 向 量 结 
构 和 GPU 结构 的 重要 性 (而 SIMD 扩展 还 不 支持 )。 
e@ 同步 。 尽 管 Core i7 有 硬件 取 改 写 (fetch-and-increment) 原子 指令 ， 但 原子 更 新 仍 
然 占 据 了 Core i7 总 执行 时 间 的 28%， 所 以 同步 的 性 能 受到 原子 更 新 的 限制 。 因 此 ， 
Hist 程序 在 GTX 280 上 只 比 Core 这 快 1.7 倍 。Solv 程序 是 一 个 约束 求解 问题 ， 它 通 
过 在 一 段 简单 的 计算 之 后 插入 同步 操作 来 实现 。 尽 管 不 是 所 有 之 前 的 访 存 指令 都 执行 
结束 ， 我 们 也 可 以 保证 结果 是 正确 的 ， 所 以 Core i7 可 以 从 原子 存储 一 致 性 模型 和 原 
子 指令 中 获 益 。 由 于 没有 存储 一 致 性 模型 ， 当 GTX 280 从 系统 处 理 器 发 出 一 批 操 作 
时 ， 它 的 性 能 只 是 Core i7 的 0.5 倍 。 这 一 观察 指出 了 同步 的 性 能 对 一 些 数据 并 行 问 
题 的 重要 性 。 
由 Intel 研究 人 员 选 择 的 这 些 核心 程序 所 发 现 的 Tesla GTX 280 的 不 足 ， 在 Tesla 的 后 继 
版 本 中 不 断 得 到 解决 ， 改 进 效 率 令 人 震惊 : Fermi 有 更 高 的 双 精 度 浮 点 性 能 、 更 快 的 原子 操 
作 和 更 快 的 cache。 同 样 有 趣 的 是 ， 对 向 量 结构 支持 聚集 - 分 散 机 制 早 于 SIMD 指令 几 十 年 
就 出 现 了 ， 并 且 有 些 人 在 这 次 比较 之 前 已 经 预测 到 聚集 - 分 散 技术 对 SIMD 扩展 的 有 效 执行 
非常 重要 。Intel 研究 人 员 指 出 ， 如 果 对 Core i7 提供 足够 的 聚集 - 分 散 支 持 ，14 个 核心 程序 
中 的 6 个 可 以 更 有 效 地 利用 SIMD。 本 次 比较 当然 也 证 实 了 cache 分 块 技术 的 重要 性 。 
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现在 我 们 看 到 了 评测 不 同 多 处 理 器 得 出 的 很 多 结果 ， 接 下 来 看 看 我 们 需要 对 DGEMM 
程序 的 C 代码 进行 多 大 的 修改 才 可 以 发 挥 多 处 理 器 的 性 能 优势 。 


6.12 ”加速 : 多 处 理 器 和 和 矩阵 乘法 


本 节 我 们 将 调整 DGEMM 使 其 适 于 Intel Core i7 ( Sandy Bridge) 底层 硬件 ， 这 是 性 能 提 
升 的 最 后 一 个 步 又， 也 是 优化 效果 最 显著 的 步 又。 每 个 Core i7 有 8 个 核 ， 我 们 使 用 的 计算 
机 有 2 个 Core i7。 所 以 我 们 有 16 个 核 来 运行 DGEMM。 

图 6-25 给 出 了 使 用 这 16 个 核 的 OpenMP 版 本 的 DGEMM 程序 。 注 意 ， 第 30 行 是 相 
对 于 图 5-47 增加 的 唯一 一 行 代码 ， 这 行 代 码 使 程序 可 以 运行 在 多 处 理 器 上 。OpenMP 的 
pragma 语句 告诉 编译 器 对 最 外 层 for 循环 使 用 多 线程 技术 。 这 样 ， 计 算 机 会 将 最 外 层 for 循 
环 的 任务 分 配给 所 有 线程 去 执行 。 


1 #include <x86intrin.h> 
2 #define UNROLL (4) 
3 #define BLOCKSIZE 32 
4 Vaid do bloek Cht. fe Tm sie, Tmt Sis Tht Kk, 
double *A, double *B, double *C) 
Sf 
7 for ( int 1 = sis YT & Si+BLOGKSTZE; =UNROLLS4 ) 
8 Few & jn ITBLOGKSIZE: jE 1 
Wms6d ela4ls 
下 人 RE 
c[x] = _mm256_load_pd(C+i+x*4+j*n):; 
Ve ex = & Bi < 
Tom mt KS sk: A GRRLOCKRSELIZES EE 
{ 
__m256d b = mm256_broadcast_sd(B+k+j*n); 
eb = BDILYL 
tor (tat Ws Os x < UNROLLYG EE 
elx] = mm256 add pd(Celxls /A* CLXIH=ALiT]ERI*D *7/ 
mm256_mul_pd(_mm256_1load_pd(A+t+n*k+x*4+i), b)); 








} 

fomw ( i 三 D5 六 才 WWWLLS Rt 
mm256. store pd(Ctitx*4+j*n: cLxX]); 
$e GET = "Ol 
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#pragma omp parallel for 
top ( ft sy = 0 §i < Mi 3) 45 BLOGKSLZE 3 
kom (, TH i Se Ve Hi ME BT 95 BLOGCKS LAE 


下 从 本 


0 sk < ns sk += BLOCKSIZE ) 
dd. blocktm, ‘Sl. 


ST A By os 





图 6-25 图 5-47 中 DGEMM 的 OpenMP 版 本 。 第 30 行 是 唯一 一 条 OpenMP 语句 ， 它 使 最 
外 层 的 for 循环 并 行 执行 。 这 一 行 代码 是 图 6-25 与 图 5-47 唯一 的 不 同 之 处 


图 6-26 画 出 了 一 个 经 典 的 多 处 理 器 加 速 比 图 ， 它 展示 了 随 着 处 理 器 的 线程 数 增加 ， 其 
性 能 相对 于 单线 程 的 提升 。 从 图 中 很 容易 看 出 ， 强 比例 缩放 比 弱 比例 缩放 面临 更 大 的 挑 


六 行 处 理 器 :从 窗户 疯 到 云 389 





战 。 如 果 所 有 数据 都 可 以 放 人 一 级 数据 cache 中 ， 增 加 线程 数 实际 上 会 降低 性 能 ， 例 如 对 于 
32 x 32 和 矩阵，16 个 线程 的 性 能 只 是 单线 程 的 一 半 。 相 反 ， 如 图 6-26 最 上 面 的 两 条 线 所 示 ， 
最 大 的 两 个 矩阵 在 使 用 16 个 线程 时 ， 性 能 提升 了 14 倍 。 


习 

E —x— 960 X 960 
东 一 上 一 480 X 480 
E —#— 160 X 160 
员 二 2 天 3 





图 6-26 与 单线 程 相 比 ， 当 线程 数 增多 时 的 性 能 提升 。 我 们 采用 的 是 最 客观 的 方法 : 将 
多 线程 的 性 能 与 最 优 的 单线 程 性 能 相 比 。 与 本 图 做 对 比 的 是 图 5-47 中 没有 使 用 
OpenMP 的 pragma 语句 的 代码 


当 线程 数 从 1 个 增加 到 16 个 ， 图 6-27 给 出 了 绝对 性 能 增长 。 对 于 960960 的 矩阵 ， 
DGEMM 程序 的 运行 速度 是 174GFLOPS。 而 图 3-22 给 出 的 未 经 任何 优化 的 C 语言 DGEMM 
程序 的 运行 速度 是 0.8GFLOPS， 也 就 是 说 通过 第 3 ~ 6 章 根 据 底层 硬件 对 代码 进行 的 优化 ， 
性 能 提升 了 200 多 倍 ! 

接 下 来 我 们 将 给 出 多 进程 的 廖 误 和 陷阱 。 正 是 因为 忽略 了 这 些 廖 误 和 陷阱 ， 计 算 机 体系 
结构 中 的 很 多 并 行 项 目 遭 受 了 失败 。 

| 详细 阐 带 | 上 述 这 些 结论 是 在 关闭 Turbo 模式 的 情况 下 得 到 的 。 在 这 个 系统 中 ， 我 
们 使 用 的 是 双 芯 片 ， 所 以 如 果 打 开 Turbo 模式 ,无 论 我 们 使 用 1 个 线程 (只 使 用 一 个 芯 
片上 的 一 个 核 ) 还 是 2 个 线程 (每 个 芯片 上 各 使 用 一 个 核 )) 都 能 得 到 完整 的 Turbo 加 速 
(3.3/2.6=1.27 )。 但 是 当 我 们 增加 线程 数 时 (活跃 的 核 数 也 增加 )， 从 Turbo 模式 获得 的 收益 
将 减少 ， 因 为 消耗 在 这 些 核 上 的 功 耗 变 少 了 。 对 于 4 线程 、8 线程 和 16 线程 ,平均 Turbo 加 
速 比 分 别 为 1.23、1.13 和 1.11。 

| 详细 阐述 虽然 Sandy Bridge 支持 每 个 核 2 个 硬件 线程 ， 但 当 使 用 32 个 线程 时 ， 一 个 
AVX 硬件 被 同一 个 核 上 的 两 个 线程 所 共享 ， 我 们 无 法 得 到 更 多 的 性 能 提升 。 所 以 为 每 个 核 分 
配 2 个 线程 会 引入 复 用 核 的 代价 ， 使 性 能 降低 。 
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图 6-27 对 于 4 个 不 同 大 小 的 和 矩阵， 运行 在 多 线程 处 理 器 上 的 DGEMM 程序 的 性 能 。 对 于 
960 x 960 矩阵， 与 图 3-21 中 的 未 经 任何 优化 的 代码 相 比 ， 在 使 用 16 个 线程 时 ， 
性 能 提升 了 212 售 
6.13” 雇 误 与 陷阱 


对 并 行 处 理 的 许多 争论 中 揭示 了 诸多 廖 误 和 陷阱 。 这 里 列举 其 
中 的 四 个 。 

廖 误 : 并 行 计算 机 不 遵循 Amdahl 定律 。 

1987 年 ， 一 个 研究 组 织 的 负责 人 声称 多 处 理 器 不 遵循 Amdahl 
定律 。 为 了 理解 这 个 报道 的 理论 基础 ， 我 们 看 看 报道 中 对 Amdahl 
定律 的 解释 [1967, p. 483] 

此 时 可 以 得 出 一 个 明显 的 结论 : 提高 并 行 处 理 的 速度 所 付出 的 
代价 很 可 能 是 种 浪费 ， 除 非 同 时 将 顺序 处 理 的 速度 提高 到 相近 的 数 
量 级 。 

这 种 说 法 的 确 是 真实 的 ， 被 忽略 的 那 部 分 程序 必然 限制 性 能 。 
对 Amdahl 定律 的 一 种 解释 可 得 到 下 面 的 引 理 : 每 个 程序 都 有 一 部 分 
是 顺序 的 ， 因 此 必然 有 一 个 经 济 的 处 理 器 数量 上 限 ， 比 如 100。 通 


十 多 年 来 ， 一 些 先知 激烈 
地 争论 着 ， 认 为 单 处 理 器 
的 组 成 方式 已 经 达到 了 性 
能 极限 ， 只 能 通过 将 多 台 
计算 机 互 连 以 支持 协同 工 
作 ， 来 获得 性 能 的 真正 改 
久 %we: 事实 证 明 单 处 理 器 
提升 性 能 的 方法 一 直 在 生 
效 ee 

Gene Amaahl, “ Validity of the 
Single processor approach to 
achierving large scale computing 
capabiities™ , Soring DA 
Compurer Conference, 1967 


过 给 出 1000 个 处 理 器 也 可 以 达到 线性 增长 ， 证 明 该 引 理 是 错误 的 ， 因 而 得 出 了 Amdahl 定律 


被 打破 的 结论 。 


这 些 研 究 人 员 的 方法 是 使 用 弱 比 例 缩放 : 不 是 在 相同 的 数据 集 上 将 速度 提高 1000 倍 ， 
而 是 在 可 比较 时 间 内 将 计算 量 提高 1000 倍 。 但 是 对 于 他 们 的 算法 ， 程 序 中 顺序 执行 的 比例 
是 常数 ， 与 问题 的 输入 规模 无 关 。 而 其 余部 分 则 是 完全 并 行 的 ， 因 此 ， 使 用 1000 个 处 理 器 


时 依然 为 线性 增长 。 


Amdahl 定律 显然 适用 于 并 行 处 理 器 。 这 项 研究 却 指出 了 更 快 的 计算 机 的 主要 用 途 之 一 
是 完成 更 大 规模 的 问题 。 只 要 确保 用 户 真 的 关心 这 些 问 题 ， 而 不 是 为 了 使 很 多 处 理 器 保持 运 


转 而 购买 更 贵 的 计算 机 。 





廖 误 : 峰值 性 能 可 代表 实际 性 能 。 

超级 计算 机 业界 在 市 场 中 曾经 使 用 该 度量 方法 ， 并 且 该 廖 误 在 并 行 机 中 更 加 严重 。 市 
场 营 销 人 员 不 仅 在 单 处 理 髓 节点 使 用 几乎 无 法 达到 的 峰值 性 能 ， 而 且 还 将 它 与 处 理 器 总 数 相 
乘 ， 假 定 并 行 机 可 以 达到 完美 的 加 速 ! Amdahl 定律 已 经 指出 达到 任 一 个 峰值 是 多 么 困难 ， 
将 两 者 相 乘 就 更 是 错 上 加 错 。Roofline 模型 有 助 于 正确 看 待 峰值 性 能 。 

陷阱 : 不 开发 软件 来 利用 和 优化 多 处 理 器 体系 结构 。 

在 很 长 一 段 时 间 里 并 行 软件 的 发 展 一 直 落 后 于 并 行 硬 件 ， 可 能 是 因为 软件 的 问题 更 加 困 
难 。 我 们 用 一 个 例子 说 明 问 题 的 微妙 之 处 ， 其 实 可 供 选 择 的 例子 还 有 很 多 ! 

把 为 单 处 理 器 设计 的 软件 移植 到 多 人 处理 器 环境 时 ， 经 常会 遇 到 这 样 一 个 问题 。 例 如 ， 
Silicon Graphics 操作 系统 最 初 假定 页 的 分 配 不 频繁 ， 只 通过 一 个 锁 来 保护 页 表 。 在 单 处 理 器 
中 ， 这 不 会 引起 性 能 问题 。 但 在 多 处 理 器 中 ， 这 种 设计 对 某 些 程序 会 成 为 主要 的 性 能 瓶颈 。 
正如 UNIX 为 静态 分 配 的 页 所 做 的 事情 ， 程 序 在 启动 时 需要 初始 化 大 量 的 页 。 假 设 该 程序 被 
并 行 化 了 ， 所 以 需要 为 多 个 进程 分 配 页 。 由 于 页 的 分 配 需要 使 用 页 表 ， 而 页 表 在 每 次 使 用 时 
被 上 锁 。 如 果 多 个 进程 试图 同时 请 求 分 配 页 ， 即 使 操作 系统 内 核 支持 多 线程 ， 这 些 请 求 也 会 
被 串 行 执行 (这 就 是 我 们 在 初始 化 时 所 预期 的 情况 )。 

页 表 请 求 的 串 行 化 处 理 影 响 了 初始 化 时 的 并 行 性 ， 并 对 整个 并 行 性 能 产生 很 大 的 影响 。 
这 种 性 能 瓶颈 也 会 出 现在 任务 级 并 行 中 。 例 如 ,假设 我 们 将 并 行 处 理 程 序 分 为 若干 个 独立 的 
作业 ， 并 在 每 个 处 理 器 上 运行 一 个 作业 ， 不 同 作 业 之 间 没 有 任何 共享 。( 这 恰好 是 一 个 用 户 
的 做 法 ， 因 为 他 合乎 情理 地 相信 和 性 能 问题 是 由 于 应 用 程序 中 无 意 的 共享 或 冲突 所 造成 的 。) 不 
幸 的 是 ， 锁 机 制 依然 将 所 有 工作 串 行 化 一 一 即使 对 于 互相 独立 的 工作 ， 性 能 也 会 很 低 。 

该 陷阱 说 明 软 件 运 行 在 多 处 理 器 上 时 ， 这 种 虽然 微小 但 对 性 能 有 极 大 影响 的 缺陷 会 显现 
出 来 。 像 许多 其 他 关键 软件 一 样 ， 多 处 理 器 上 的 操作 系统 算法 和 数据 结构 需要 重新 考虑 。 对 
页 表 的 更 小 单位 加 锁 可 以 有 效 地 避免 这 个 问题 。 

雇 误 : 在 不 提升 内 存 带宽 的 前 提 下 可 以 得 到 不 错 的 向 量 计 算 性 能 。 

从 Roofline 模型 中 可 以 看 到 ， 内 存 带宽 对 所 有 体系 结构 都 非常 重要 。DAXPY 的 每 个 浮 
点 运算 需要 1.5 次 访 存 ， 对 于 很 多 科学 计算 ， 这 是 一 个 很 标准 的 比例 。 即 使 浮 点 运算 不 花费 
时 间 ，Cray-1 计算 机 也 无 法 提升 DAXPY 向 量 计算 的 性 能 ， 因 为 它 受到 内 存 限 制 。 若 编译 器 
采用 分 块 技术 ， 使 数据 可 以 保存 在 向 量 寄 存 器 中 ，Cray-1l 运行 Linpack 的 性 能 有 了 跳跃 式 提 
升 。 这 个 方法 降低 了 每 个 浮 点 运算 的 访 存 次 数 并 使 性 能 提升 了 将 近 两 倍 ! 这 样 ， 对 于 之 前 有 
高 带宽 需求 的 循环 ，Cray-1 的 内 存 带 宽 就 足够 了 ， 这 正 是 Roofline 模型 所 预言 的 。 


6.14 本章 小 结 


从 计算 机 发 展 的 早期 开始 ， 人 们 就 梦想 着 通过 简单 地 集成 若干 | 我 们 正在 将 未 来 产品 的 开 
处 理 器 来 构建 计算 机 。 但 是 构建 并 充分 有 效 地 利用 并 行 处 理 器 的 过 | 发 专注 于 多 核 设计 。 我 们 
程 是 缓慢 的 。 一 方面 是 受 软件 困难 的 限制 ， 另 一 方面 是 ， 为 了 提高 | 要 if 工 二 直人 
可 用 性 和 效率 ， 多 处 理 器 体系 结构 在 不 断 改进 。 本 章 中 我 们 讨论 了 | 充 争 ， 这 是 计算 的 翻天 复 
很 多 软件 方面 的 挑战 (例如 ， 如 何 编写 根据 Amdahl 定律 可 获得 高 “| 地 的 变化 … 

加 速 比 的 程序 )。 不 同 的 体系 结构 之 间 存在 巨大 差异 ， 而 且 过 去 很 多 | 人 
并 行 体系 结构 的 生命 周期 非常 短暂 ， 所 取得 的 性 能 提升 也 非常 有 限 ， 

这 些 因素 使 得 软件 更 加 困难 。 网 上 的 6.15 节 讨 论 了 这 些 多 处 理 器 的 历史 。 要 对 本 章 所 述 的 主 
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题 有 更 深入 的 理解 ， 请 参阅 《计算 机 体系 结构 : 量化 研究 方法 》( 第 5 版 ) 第 4 章 中 更 多 关于 
GPU 以 及 CPU 和 GPU 之 间 对 比 的 内 容 ， 还 有 第 6 章 关 于 WSC 的 内 容 。 

正如 第 1 章 所 述 ， 历 史 漫 长 而 坎坷 ， 但 是 现在 信息 技术 业 的 未 来 与 并 行 计算 紧密 联系 在 
一 起 。 像 过 去 一 样 ， 尽 管 可 能 会 失败 ， 依 然 有 很 多 理由 让 我 们 对 并 行 充满 希望 : 

e@ 显然 ， 软 件 即 服务 ( SaaS) 的 重要 性 日 益 增 加 ， 并 且 集 群 已 被 证 明 能 很 好 地 提供 这 种 
服务 。 通 过 提供 高 层次 的 宛 余 (包括 地 理 分 布 的 数据 中 心 )， 此 类 服务 可 以 为 全 球 的 
客户 提供 24 x 7x365 的 可 用 性 。 

我 们 相信 仓储 级 计算 机 ( Warehouse-Scale Computer, WSC) 正在 改变 服务 器 设计 的 
目标 和 原则 ， 就 像 移动 客户 端的 需求 正在 改变 微 处 理 器 设计 的 目标 和 原则 一 样 。 这 两 
者 同样 也 在 革新 软件 行业 。 每 美元 的 性 能 和 每 焦耳 的 性 能 驱动 着 移动 客户 端 硬件 和 
WSC 硬件 的 发 展 ， 并 行 是 实现 这 些 目 标的 关键 。 

在 后 PC 时 代 多 媒体 应 用 程序 扮演 着 更 重要 的 角色 ， 而 SIMD 和 向 量 操作 更 适合 多 媒 
体 应 用 程序 。 与 经 典 的 并 行 MIMD 编程 相 比 ，SIMD 和 向 量 运算 对 程序 员 来 说 更 简 
单 ， 而 且 能 效 性 也 更 好 。 为 了 认识 到 SIMD 与 MIMD 的 重要 性 ， 图 6-28 给 出 了 随 着 
时 间 的 增长 MIMD 中 的 核 数 ， 以 及 x86 计算 机 中 SIMD 模式 下 每 时 钟 周期 的 32 位 
和 64 位 操作 个 数 。 对 于 x86 计算 机 ， 我 们 预计 每 两 年 芯片 增加 两 个 核 ， 并 且 每 四 年 
SIMD 宽度 增加 一 倍 。 基 于 这 些 假设 ， 在 未 来 十 年 内 ，SIMD 的 并 行 加 速 会 是 MIMD 
并 行 的 两 倍 。 由 于 SIMD 对 多 媒体 应 用 程序 非常 有 效 ， 并 且 多 媒体 应 用 程序 在 后 PC 
时 代 日 益 重 要 ， 这 个 推论 可 能 是 正确 的 。 因 此 ， 理 解 SIMD 并 行 与 MIMD 并 行 一 样 
重要 ， 尽 管 后 者 已 经 得 到 了 更 多 的 关注 。 
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图 6-28 MIMD 和 SIMD 的 潜在 并 行 加 速 比 ， 以 及 x86 计算 机 的 MIMD 和 SIMD 随 着 时 间 
的 变化 。 该 图 假设 每 两 年 芯片 上 MIMD 的 核 数 增加 两 个 ， 并 且 每 四 年 SIMD 操作 
的 数目 增加 一 倍 





江 行 处 理 器 : 从 俭 户 疯 到 去 399 








e 在 科学 和 工程 计算 的 领域 中 并 行 处 理 被 广泛 使 用 。 这 类 应 用 程序 对 计算 能 力 的 需求 几 
乎 没有 上 限 。 还 有 一 些 应 用 程序 存在 大 量 天 然 的 并 行 性 。 集 群 再 次 占据 了 这 类 应 用 程 
序 。 例 如 ,在 2012 年 Top 500 报告 中 ， 集 群 占 了 500 个 最 快 的 Linpack 的 80%。 

e 为 了 获得 高 性 能 ， 所 有 桌面 和 服务 器 微 处 理 器 制造 商都 在 构建 多 处 理 器 ， 顺 序 应 用 程 
序 不 会 像 过 去 一 样 再 有 获取 高 性 能 的 途径 。 正 如 我 们 之 前 所 说 ， 顺 序 程序 现在 的 速度 
很 慢 。 因 此 ， 需 要 更 高 性 能 的 程序 员 必 须 将 自己 的 代码 并 行 化 ， 或 编写 新 的 并 行 处 理 
程序 。 

e 过 去 ， 微 处 理 器 和 多 处 理 器 对 于 成 功 的 定义 是 不 同 的 。 当 扩展 单 处 理 器 性 能 时 ， 如 果 
单线 程 性 能 随 芯片 面积 的 平方 根 增长 ， 微 处 理 器 设计 者 会 感到 很 满意 。 也 就 是 说 ， 他 
们 满足 于 性 能 随 资源 数量 的 亚 线性 增长 。 多 处 理 器 的 成 功 在 过 去 被 定义 为 与 处 理 器 数 
量 相 关 的 线性 加 速 比 函数 ， 并 假定 n 个 处 理 器 的 购买 成 本 或 管理 成 本 是 单 处 理 器 的 
倍 。 既 然 并 行 发 生 在 芯片 上 的 多 核 之 间 ， 我 们 可 以 使 用 已 经 获得 成 功 的 传统 微 处 理 器 
标准 来 获得 亚 线性 的 性 能 提升 。 

e 即时 编译 和 自动 运行 的 成 功 使 得 软件 更 容易 适应 每 芯片 核 数 的 增长 ， 提 供 了 静态 编译 
器 所 不 能 提供 的 灵活 性 。 

e 与 过 去 不 同 ， 开 源 运动 已 成 为 软件 行业 的 一 个 关键 部 分 。 这 种 运动 可 以 改善 工程 解决 
方案 ， 促 进 开 发 者 之 间 的 知识 共享 。 它 也 鼓励 创新 ， 在 改变 旧 软 件 时 欢迎 新 的 语言 和 
软件 产品 。 这 种 开放 式 的 文化 必 将 有 益 于 目前 日 新 月 异 的 时 期 。 

为 了 使 读者 接受 这 场 革命 ， 我 们 通过 快速 浏览 第 3 ~ 6 章 来 展示 如 何 通 过 Intel Core 17 

(Sandy Bridge) 处 理 器 发 掘 矩 阵 乘法 的 潜在 并 行 : 

e 第 3 章 的 数据 级 并 行 通过 使 用 256 位 的 AVX 指令 并 行 执行 4 个 64 位 浮 点 运算 ,使 性 
能 提高 了 3.85 倍 ， 证 明了 SIMD 的 价值 。 

e 第 4 章 通过 4 次 展开 循环 发 掘 指令 级 并 行 ， 为 乱 序 执行 的 硬件 提供 了 更 多 的 指令 去 调 

度 ， 这 又 使 性 能 提升 了 2.3 售 。 

第 5 章 的 cache 优化 使 用 分 块 技术 来 减少 cache 失效 ， 这 将 不 能 放 进 L1 cache 的 矩阵 
性 能 提升 了 2.0 一 2.5 倍 。 

本 章 通 过 使 用 多 核 芯 片上 的 所 有 16 个 核 ， 利 用 了 线程 级 并 行 ， 将 无 法 放 入 Ll cache 
和 矩阵 的 性 能 提高 了 4 一 14 倍 ， 证 明了 MIMD 的 价值 。 我 们 是 通过 添加 一 行 OpenMP 
pragma 语句 实现 的 。 

使 用 本 书 中 的 方法 并 根据 该 计算 机 对 软件 进行 改造 ， 为 DGEMM 程序 添加 了 24 行 代 
码 。 对 于 32x32、160x160、480x 480 和 960 x 960 的 和 矩阵， 通过 这 几 行 代码 和 本 书 的 方法 
得 到 的 总 性 能 加 速 比 为 8、39、129 和 212 1 

硬件 /软件 接口 的 并 行 变革 可 能 是 过 去 60 年 来 所 面临 的 最 大 挑战 。 正 如 我 们 快速 浏览 
各 章节 时 所 展示 的 ， 你 也 可 以 将 其 视 为 一 个 绝 佳 的 机 会 。 这 场 变 革 在 IT 界 内 外 提供 了 大 量 
新 的 研究 和 商业 前 景 ， 并 且 使 专注 于 多 核 和 单 处 理 器 的 公司 区 分 开 来 。 在 理解 了 底层 硬件 的 
发 展 趋势 ， 以 及 学 会 了 如 何 使 软件 适应 它们 之 后 ， 也 许 你 就 会 抓 住 其 中 的 机 会 ， 成 为 创新 者 
中 的 一 员 。 我 们 期 待 从 你 的 发 明 创造 中 受益 ! 


镶 6.15 历史 视角 和 拓展 阅读 
本 节 在 网 上 主要 给 出 了 近 50 年 来 多 处 理 器 的 发 展 历史 。 
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6.16 练习 
6.1 首先 写 一 个 每 天 你 通常 需要 完成 的 日 常 活动 的 列表 。 例 如 ， 你 可 能 会 起 床 、 淋 浴 、 穿 衣服 、 吃 
早饭 、 和 弄 干 头发 、 刷 牙 。 确 保 列表 中 至 少 包含 10 项 活动 。 
6.1.1 [5] <6.2> 考 虑 哪些 活动 已 经 利用 了 某 种 形式 的 并 行 性 〈 例 如 ， 是 同时 刷 多 颗 牙 还 是 一 次 只 刷 
一 颗 牙 ， 是 一 次 只 带 一 本 书 到 学 校 ， 还 是 将 所 有 书 装 到 背包 里 一 次 “并 行 ”携带 )。 对 每 个 活 
动 都 分 析 是 否 已 经 并 行 工作 ， 如 果 没 有 ， 分 析 其 原因 。 
6.1.2 [5] <6.2> 接 下 来 考虑 哪些 活动 可 以 并 发 执行 (例如 ， 吃 早餐 和 听 新 闻 )。 对 每 个 活动 都 分 析 哪 
些 活动 可 以 与 其 配对 并 发 执行 。 
6.1.3 [5] <6.2> 对 于 上 题 ， 可 以 通过 改变 现 有 系统 (例如 ， 淋浴 设备 、 衣 服 、 电 视 机 、 汽 车 等 ) 中 
的 什么 让 我 们 并 行 执行 更 多 的 任务 ? 
6.1.4 [5] <6.2> 如 果 你 能 尽 可 能 多 地 并 行 执行 任务 ,估计 完成 这 些 任 务 可 以 缩短 的 时 间 是 多 少 ? 
6.2 ”假设 需要 你 制作 3 块 蓝莓 蛋糕 。 和 蛋糕 的 配料 如 下 : 
。 1 杯 黄油 ， 软 化 后 再 用 
。 1 杯 糖 
e 4 个 大 鸡蛋 
e 1 茶匙 香草 精 
e 0.5 茶匙 盐 
。 0.25 茶匙 肉 豆 苞 
。 1.5 杯 面粉 
e 1 杯 蓝 花 
蛋糕 的 制作 流程 如 下 : 
。 第 1 步 : 烤箱 预 热 至 160 (325 )。 在 烤 盘 上 抹 黄 油 和 一 层 薄 薄 的 面粉 。 
。 第 2 步 : 在 一 只 大 碗 中 使 用 搅拌 器 以 中 速 将 奶油 和 糖 混合 在 一 起 ， 直 到 变 成 稀 松 的 糊 状 。 
再 加 鸡蛋 、 香 草 精 、 盐 和 肉 豆 敬 ， 搅 拌 到 完全 混合 。 将 抄 拌 器 降 到 低速 ， 一 次 加 入 0.5 杯 
面粉 ， 搅 拌 到 完全 混合 。 
。 第 3 步 : 最 后 慢 慢 加 入 蓝莓 ， 将 蛋糕 均匀 地 放 在 烤 盘 中 ， 烘 烤 约 60 分 钟 。 
6.2.1 [5]<6.2> 你 的 任务 是 尽 可 能 高 效率 地 完成 3 块 蛋糕 。 假 定 只 有 一 个 能 容纳 一 块 蛋糕 的 烤箱 、 
”一 个 大 碗 、 一 个 烤 盘 、 一 个 搅拌 器 ， 请 做 出 合理 的 调度 以 尽 可 能 快 地 完成 任务 ， 并 分 析 瓶 颈 
所 在 。 
6.2.2 [5] <6.2> 假 设 你 现在 有 3 个 碗 、3 个 蛋糕 盘子 和 3 个 搅拌 器 。 你 拥有 这 些 增加 的 资源 后 ， 现 
在 的 工序 加 快 了 多 少 ? 
6.2.3 [5] <6.2> 假 设 现 在 有 两 个 朋友 可 帮 你 误 饪 ， 并 且 你 有 一 个 可 容纳 3 个 蛋糕 的 大 烤箱 。 这 些 将 


使 6.2.1 中 的 计划 有 何 改 变 ? 
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[5 ] < 6.2 > 将 制作 蛋糕 与 并 行 计算 机 中 的 循环 迭代 进行 类 比 。 分 析 制 作 蛋 糕 的 循环 中 存在 的 数 
据 级 并 行 和 任务 级 并 行 。 

许多 计算 机 应 用 程序 需要 在 一 组 数据 中 进行 搜索 和 对 数据 进行 排序 。 为 了 减少 这 些 任务 的 执行 
时 间 ， 几 种 高 效 的 搜索 和 排序 算法 已 被 设计 出 来 。 在 本 练习 中 ， 我 们 考虑 如 何 尽 可 能 地 将 这 
些 任务 并 行 化 。 

[10] <6.2> 请 看 下 面 的 二 进 制 搜索 算法 (一 种 经 典 的 分 治 算法 )， 该 算法 可 以 在 已 经 排序 的 N 
元 素数 组 A 中 搜索 值 X， 并 返回 匹配 项 的 索引 号 : 


BinarySearch(A[O..N-1], xX) { 
low=0 
high = N 一 1 
while (low <= high) 1 
mid = (low + high) / 2 
if (A[mid] >X) 
high = mid =—1 
else if (A[mid] <X) 
jow = mid+ 1 
else 
return mid // found 
} 
retwurn ~—l // not Touwnd 
} 


假设 BinarySearch 运行 在 具有 YY 个 核 的 多 核 处 理 器 上 ， 且 Y 远 远 小 于 N。 请 问 对 于 Y 和 
N 的 不 同 取 值 ， 预 期 的 加 速 比 是 多 少 ? 请 画图 表示 。 
[5] <6.2> 接 下 来 , 假设 Y 与 N 相等 ， 这 会 对 你 前 面 的 结论 有 何 影响 ”如 果 要 求 你 获得 尽 可 能 
高 的 加 速 比 〈 例 如 ， 强 比例 缩放 )， 请 问 该 如 何 修改 代码 ? 
请 看 下 面 的 C 代码 片段 : 
for (j=2;j<=1000;j++) 
DE = BE 二 可 直人 一人] 
与 之 对 应 的 RISC-V 代码 如 下 所 示 : 


1 x5, 8000 

add XU 2 

addi 0 
LOOP: fld 10> =16(CXIT 

fld Tl WL) 


SO 

fsd Te Oh 
addi bp 
ble 光 | 人 OOP 


一 条 指令 的 延迟 是 指 ， 在 这 条 指令 与 使 用 其 结果 的 指令 之 间 必 须 存在 的 周期 数 。 假 设 浮 点 指 
令 的 延迟 如 下 (周期 数 ): 





i 





[ 10 ] < 6.2 > 执行 这 段 代码 需要 多 少时 钟 周期 ? 

[ 10 ] < 6.2 > 重新 对 这 段 代 码 排序 以 减少 停顿 (提示 : 通过 改变 fsd 指令 的 偏 移 量 ， 可 以 消除 
由 其 带 来 的 停顿 )。 现 在 ， 执 行 这 段 代 码 需要 多 少时 钟 周期 ? 

[ 10 ] < 6.2 > 在 循环 中 ， 如 果 后 一 次 迭代 的 指令 会 依赖 于 前 一 次 迭代 的 指令 产生 的 结果 ， 我 们 说 
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6.4.4 


6.4.7 


6.5 


及 6 莫 





循环 迭代 之 间 存 在 循环 进位 相关 性 (loop-carried dependence)。 请 分 析 上 面 代码 中 的 循环 进位 
相关 性 ， 识 别 其 中 相关 的 程序 变量 和 汇编 级 寄存 器 。 可 忽略 循环 变量 j 。 

[15 ] < 6.2 > 重 写 这 段 代 码 ， 用 寄存 器 来 传递 迭代 之 间 的 数据 (而 不 是 从 内 存 中 读 写 该 数据 )。 
指出 重 写 后 的 这 段 代码 哪里 会 发 生 停顿 ， 并 计算 执行 这 段 代 码 所 需 的 时 钟 周期 数 。 注 意 ， 关 
于 这 个 问题 ， 你 可 能 需要 使 用 汇编 伪 指令 fmv .d rd，rsl， 该 指令 将 浮 点 寄存 器 rsl 的 值 
写 人 浮 点 寄存 器 rd。 假 设 fmv . d 指令 在 一 个 周期 内 完成 。 

[10] <6.2> 第 4 章 描述 了 循环 展开 。 对 上 述 代码 进行 循环 展开 并 优化 ， 展 开 后 的 每 次 迭代 处 
理 原 来 循环 的 三 次 迭代 。 指 出 展开 后 的 代码 在 哪里 停顿 ， 并 计算 执行 这 段 代码 需要 多 少时 钟 
周期 。 

[ 10 ] < 6.2 > 由 于 我 们 刚好 想 要 多 个 三 次 迭代 的 组 合 ， 上 一 题 循环 展开 后 的 代码 可 以 工作 得 很 
好 。 但 是 如 果 和 迭代 次 数 在 编译 时 无 法 得 知 呢 ? 如 何 处 理 这 样 的 循环 : 原始 的 迭代 次 数 不 是 展 
开 后 循环 的 迭代 次 数 的 整数 倍 ? 

[15 ] <6.2> 考虑 将 上 述 代 码 运 行 在 一 个 2 节点 的 基于 消息 传递 的 分 布 式 存储 系统 中 。 假 定 我 们 
采用 6.7 节 描 述 的 消息 传递 机 制 ， 操 作 send (x，y) 向 节点 x 发 送 值 y， 操 作 receive () 
等 待 正在 发 送 的 数 。 再 假定 send 操作 的 发 射 需要 1 个 周期 (也 就 是 说 ， 同 一 节点 的 后 续 指 
令 可 在 下 个 周期 执行 )， 而 接收 节点 需要 多 个 周期 接收 。 接 收 指令 会 阻塞 接收 节点 上 指令 的 执 
行 , 一直 等 到 接收 节点 完成 消息 接收 为 止 。 你 能 用 这 样 一 个 系统 为 上 述 代 码 加 速 吗 ? 如 果 可 
以 ,能 容忍 的 最 大 接收 延迟 是 多 少 ?” 如果 不 能 ， 请 说 明理 由 。 

考虑 下 面 的 归并 排序 算法 ( 男 一 种 经 典 的 分 治 算法 )。 归 并 排序 由 John von Neumann 于 1945 年 
首先 提出 。 其 基本 思想 是 将 含有 m 个 元 素 的 未 排序 序列 x 分 为 两 个 子 序 列 ， 其 中 每 个 序列 长 
度 都 大 约 是 原来 的 一 半 。 然 后 对 每 个 子 序列 重复 类 似 的 动作 ， 直 到 每 个 子 序列 的 长 度 均 为 1。 
再 从 长 度 为 1 的 子 序列 开始 ， 将 两 个 子 序 列 “ 归 并 ”为 一 个 排序 的 序列 。 


Mergesort(m) 
var J7st leftt, right, resvlt 
if length(m) < 1 
return m 
else 
var middle = length(m) / 2 
for each x in m up to middle 
add x to left 
for each x in m after middle 
add x to right 
left = Mergesort(1left) 
right = Mergesort(right) 
result = Merge(left, right) 
return result 


下 面 的 代码 实现 归并 步骤 : 


Merge(left,right) 
var list result 
while length(left) >0 and length(right) > 0 
i Tbetty & Treterghta 
append first(left) to result 
left = rest(left) 
else 
append first(right) to result 
right = rest(right) 
if length(left) >0 
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6.3.1 


6.6 


6.7.1 


6.7.2 
6.8 


6.8.1 


append rest(left) to result 
if length(right) >0 

append rest(right) to result 
return result 


[10] <6.2> 假 设 MergeSort 运行 在 具有 Y 个 核 的 多 核 处 理 器 上 ， 且 Y 远 远 小 于 m (长 度 )。 
请 问 对 于 Y 和 mm 的 不 同 取 值 ， 预 期 的 加 速 比 是 多 少 ? 请 画图 表示 。 

[ 10 ] < 6.2 > 接 下 来 ， 假设 Y 与 m 相等 ， 这 会 对 你 前 面 的 结论 有 何 影响 ?如 果 要 求 获得 尽 可 能 
高 的 加 速 比 〈 例 如 ， 强 比例 缩放 )， 请 问 该 如 何 修改 代码 ? 

和 矩阵 乘 在 大 量 应 用 中 都 扮演 着 重要 角色 。 两 个 矩阵 可 以 相 乘 的 条 件 是 第 一 个 矩阵 的 列 数 和 第 二 
个 矩阵 的 行 数 相同 。 

假设 我 们 有 一 个 m xn 的 矩阵 4， 还 有 一 个 nxp 的 矩阵 B 与 之 相 乘 。 乘 法 结果 为 一 个 mxp 
的 矩阵 4B8 (或 4. B)。 如 果 令 C=4B，C; ;代表 在 矩阵 (i,j) 位 置 处 的 值 ， 则 1 < i<m 且 


过于 十 Cu=> a xbeys 现在 我 们 考虑 是 否 可 以 将 C 的 计算 并 行 化 。 假 设 和 矩阵 在 存储 中 


的 存放 顺序 为 a11，az1，a31，a41，*…。 

[10]<6.5 > 假设 我 们 分 别 在 单 核 / 四 核 共 享 存储 的 系统 计算 C， 忽 略 关 于 存储 的 问题 ， 请 问 四 
核 相对 于 单 核 的 预期 加 速 比 是 多 少 ? 

[10] <6.5 > 如 果 对 C 的 多 次 更 新 发 生 在 一 行 中 连续 的 元 素 时 ， 会 引发 伪 共享 带 来 的 cache 失 
效 ,， 重 新 计算 6.6.1 中 的 问题 。 

[ 10 ] < 6.5> 怎样 消除 可 能 出 现 的 伪 共享 问题 ? 

下 面 的 代码 来 自 两 个 不 同 的 程序 ， 它 们 同时 运行 在 一 个 包含 4 个 处 理 器 的 SMP( 对 称 多 核 处 理 
器 ) 中 。 假 设 在 开始 运行 之 前 ，x 和 y 的 初 值 均 为 0。 

。 核 1: x=2 

e 核 2: y=2 

e@ 核 3: w=Xx+y+1 

e 核 4: Zz=x+y 

[10] <6.5>w、x、y、z 所 有 可 能 的 结果 分 别 是 什么 ”对 每 种 可 能 的 情况 ， 通 过 分 析 指 令 的 交 
错 情 况 ， 解释 其 产生 的 原因 。 

[5 ] < 6.5 > 怎样 能 让 执行 变 得 更 有 确定 性 ， 以 便 只 产生 一 种 结果 。 

哲学 家 就 餐 问 题 是 一 个 经 典 的 同步 和 并 发 问题 。 该 问题 假设 就 座 于 一 个 圆桌 周围 的 哲学 家 可 以 
做 两 件 事 之 一 : 吃饭 或 思考 。 吃 饭 时 不 能 思考 ， 反 之 亦 然 。 在 圆桌 中 心 有 一 碗 通 心 粉 。 每 两 个 
哲学 家 之 间 有 一 把 叉子， 这 样 每 个 哲学 家 左边 有 一 把 叉子 ， 右 边 也 有 一 把 叉子 。 按 照 吃 通 心 粉 
的 方式 ， 哲 学 家 需要 两 把 又 子 才能 吃 到 ， 而 且 只 能 使 用 紧 挨 着 他 左右 的 两 把 叉子。 哲学 家 不 能 
和 其 他 人 说 话 。 

[ 10 ] < 6.7 > 请 描述 没有 任 一 哲学 家 能 吃 到 通 心 粉 的 情景 (例如 ， 饿 死 )。 什 么 样 的 事件 序列 会 
导致 该 问题 发 生 ? 

[ 10 ] < 6.7 > 如 何 通过 引入 优先 级 的 概念 来 解决 这 一 问题 ? 可 以 平等 地 对 待 所 有 哲学 家 吗 ? 请 解 
释 原 因 。 

现在 假定 我 们 增加 一 个 服务 员 负 责 为 哲学 家 们 分 配 又 子 。 只 有 在 服务 员 人 允许 之 下 他 们 才 可 以 
拿 起 义 子 。 服 务 员 也 知道 所 有 叉子 的 状态 。 并 且 我 们 要 求 所 有 哲学 家 总 是 先 请 求 拿 起 左边 的 
叉子 ， 再 请 求 拿 起 右边 的 又 子 ， 这 样 可 以 避免 死 锁 。 

[ 10 ] < 6.7> 我 们 可 以 将 哲学 家 向 服务 员 发 出 的 请 求 放 入 一 个 队列 ， 也 可 以 让 请 求 周 期 性 地 重 
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6.8.4 


6.9 


务 6 章 





试 。 如 果 采 用 队列 的 方式 ， 请 求 可 以 按照 收 到 的 顺序 依次 处 理 。 存 在 的 问题 是 即使 请 求 排 在 

队列 的 最 前 面 ， 我 们 也 不 能 保证 总 是 能 为 其 提供 服务 〈 因 为 可 能 缺乏 所 需 的 资源 )。 描 述 使 用 

一 个 队列 为 5 个 哲学 家 服务 的 情景 ， 即 使 有 的 哲学 家 有 两 把 叉子 都 可 用 ， 但 仍然 不 能 为 其 服 

务 (因为 他 的 请 求 排 在 队列 的 后 部 )。 

[ 10 ] < 6.7 > 如 果 我 们 让 请 求 周 期 性 地 重 试 直到 资源 变 为 可 用 ， 这 样 是 否 就 解决 了 6.8.3 中 的 问 

题 ? 请 给 出 原因 。 

考虑 下 面 的 3 种 CPU 结构 : 

e CPU SS : 一 个 双核 超标 量 微 处 理 器 ， 支 持 在 两 个 功能 单元 (FU) 上 的 乱 序 发 射 。 每 个 核 只 
能 运行 单线 程 。 

。 CPU MT : 一 个 细 粒 度 的 多 线程 处 理 器 ， 支 持 来 自 两 个 线程 中 指令 的 并 发 执行 (例如 ， 有 
两 个 功能 单元 )， 但 是 每 个 周期 只 能 从 一 个 线程 发 射 一 条 指令 。 

e CPU SMT : SMT 处 理 器 支持 来 自 两 个 线程 的 指令 并 发 执行 (例如 ， 有 两 个 功能 单元 )， 并 
且 发 射 的 指令 可 来 自任 意 一 个 线程 或 者 两 个 线程 。 

e 假定 我 们 在 这 些 CPU 上 运行 线程 X 和 线程 Y， 具 体操 作 如 下 : 

















A1: 需 三 个 周期 执行 | B1: 需 两 个 周期 执行 

A2 : 无 相关 性 B2: 与 B1 使 用 的 一 个 功能 单元 冲突 
A3 : 与 A1 使 用 的 一 个 功能 单元 冲突 B3: 需要 B2 的 结果 

A4 : 需要 A3 的 结果 | ”” B4: 无 相关 性 ， 需 要 两 个 周期 执行 











除非 特别 标记 或 者 遇 到 冒险 ， 假 定 所 有 指令 的 执行 都 需要 一 个 周期 。 

[ 10 ] < 6.4> 如 果 使 用 一 个 SS CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ?冒险 浪费 了 多 少 发 射 模 ? 
[ 10 ] < 6.4> 如 果 使 用 两 个 SS CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ?冒险 浪费 了 多 少 发 射 槽 ? 
[10 ] < 6.4 > 如 果 使 用 一 个 MT CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 冒险 浪费 了 多 少 发 
射 槽 ? 

[ 10 ] < 6.4 > 如 果 使 用 一 个 SMT CPU， 执 行 这 两 个 线程 需要 多 少 个 周期 ? 冒险 浪费 了 多 少 发 
射 槽 ? 

虚拟 化 软件 正在 用 于 降低 管理 高 性 能 服务 器 的 成 本 ， 包 括 VMWare、Microsoft 和 IBM 公司 在 
内 的 很 多 公司 正在 开发 一 系列 的 虚拟 化 产品 。 第 5 章 中 介绍 的 管理 程序 层 ( hypervisor layer) 
位 于 硬件 和 操作 系统 之 间 ， 使 多 个 操作 系统 可 以 共享 同一 物理 硬件 。 管 理 程序 层 负 责 分 配 
CPU 和 存储 资源 ， 同 时 处 理 原 本 由 操作 系统 完成 的 服务 (如 IO )。 

虚拟 化 为 宿主 操作 系统 和 应 用 软件 提供 了 底层 硬件 的 一 个 抽象 ， 使 得 若干 操作 系统 可 并 行 运 
行 在 共享 的 CPU 和 存储 上 。 我 们 需要 重新 考虑 未 来 如 何 设计 多 核 和 多 处 理 器 系统 以 对 此 进行 
支持 。 

[30 ] < 6.4> 选 择 现在 市 场 上 的 两 种 管理 程序 ， 比 较 它 们 虚拟 化 和 管理 底层 硬件 (CPU 和 存储 ) 
的 方式 。 

[15 ] < 6.4> 为 了 更 好 地 满足 资源 需求 ， 未 来 的 多 核 CPU 平台 需要 做 出 哪些 改变 ? 例如 ， 多 线 
程 技术 是 否 可 以 减轻 计算 资源 间 的 竞争 ? 

我 们 将 讨论 如 何 高 效 地 执行 下 面 的 代码 。 假 设 有 两 个 不 同 的 机 器 ， 一 个 是 MIMD ， 另 一 个 是 
SIMD。 


for (i=0; i<2000; i++) 
for (j=0; j<3000; j++) 


Xarray[Lij[Lijl = Y_arrayLjJLlil + 200: 
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6.11.1 


6.11.2 


6.12 


6.12.1 


6.12.2 
6.13 


6.13.1 
6.14 


6.14.1 


6.14.2 











[ 10 ] < 6.3 > 对 于 一 个 包含 4 个 CPU 的 MIMD 机 器 ， 请 给 出 每 个 CPU 上 执行 的 RISC-V 指令 
序列 。 此 MIMD 机 器 的 加 速 比 是 多 少 ? 

[ 20 ] < 6.3 > 对 一 个 宽度 为 8 的 SIMD 机 器 (例如 ， 包 含 8 个 并 行 的 SIMD 功能 单元 )， 使 用 你 
自己 的 对 RISC-V 的 SIMD 扩展 ， 编 写 一 个 执行 该 循环 的 汇编 程序 ， 并 比较 SIMD 和 MIMD 
机 器 上 执行 指令 的 数量 。 

MISD 机 器 的 一 个 例子 是 脉动 阵列 (systolic array)。 它 是 一 个 由 数据 处 理 单元 构成 的 流水 线 网 络 
或 “ 波 阵 面 ” 。 这 些 单元 都 不 需要 程序 计数 器 ， 因 为 执行 是 由 数据 的 到 达 触 发 的 。 时 钟 脉动 阵 
列 通 过 与 每 个 处 理 器 相 “ 锁 步 ”的 方式 进行 计算 ， 而 这 些 处 理 器 承担 了 交替 的 计算 和 通信 。 
[10 ] < 6.3 > 分 析 脉 动 阵列 的 各 种 实现 机 制 (可 以 在 互联 网 或 出 版 物 中 查找 相关 资料 )， 然 后 使 
用 MISD 模型 对 6.11 中 的 循环 进行 编程 ， 并 对 遇 到 的 问题 进行 讨论 。 

[ 10 ] < 6.3 > 使 用 数据 级 并 行 的 术语 ， 讨 论 MISD 和 SIMD 之 间 的 相似 点 和 不 同 点 。 
假定 我 们 要 使 用 NVIDIA 8800 GTX GPU 上 的 RISC-V 向 量 指令 执行 DAXPY 循环 ( 见 6.3.2 
节 )。 在 这 一 问题 中 ,假定 所 有 算术 操作 是 单 精度 浮 点 数 运算 (因此 我 们 将 其 重新 命名 为 
SAXPY )。 假 定 指令 执行 的 周期 数 如 下 所 示 。 


5 hi 3 | 罗 4 | 














[20 ] < 6.6> 请 描述 在 一 个 8 核 处 理 器 中 如 何 构建 warp 来 完成 SAXPY 循环 ? 

从 https://developer.nvidia.com/cuda-toolki 下 载 CUDA Toolkit 和 SDK。 注 意 使 用 代码 的 “emure- 
lease”( Emulation Mode) 版 本 (此 版 本 可 在 没有 NVIDIA 硬件 的 情况 下 运行 )。 编 译 SDK 中 
提供 的 示例 程序 ， 并 确认 它们 运行 在 仿真 器 上 。 

[90] < 6.6 > 以 SDK 的 示例 程序 为 起 点 ， 编 写 一 个 完成 如 下 向 量 操作 的 CUDA 程序 : 

1. a-b( 疝 量 减法 ) 

2.4a .b (向 量 点 积 ) 

向 量 a= [ai, qz,…, 4n] 和 65= [2 b2,…, bw] 的 点 积 定义 如 下 : 


a:b= ab,=ab, + ab, +*…+ a,b, 
i=1 


运行 编写 的 程序 并 验证 结果 是 否 正确 。 

[ 90 ] < 6.6 > 如 果 你 有 可 用 的 GPU 硬件 ， 请 完成 对 程序 的 性 能 分 析 。 并 且 对 于 不 同 的 向 量规 模 ， 
查看 在 GPU 和 一 个 CPU 版 本 上 的 计算 时 间 ， 并 解释 其 中 的 原因 。 

AMD 最 近 宣 布 将 把 GPU 与 x86 核 集成 到 一 个 封装 中 (尽管 两 者 的 时 钟 不 同 )。 这 是 一 个 异 
构 多 核 的 实例 。 设 计 的 关键 之 一 是 如 何 支持 CPU 和 GPU 之 间 的 高 速 数据 通信 。 在 AMD 的 
Fusion 体系 结构 之 前 ， 分 散 的 CPU 和 GPU 芯片 之 间 需 要 通信 。 目 前 的 计划 是 采用 多 个 (至 
少 16 个 ) PCI express 通道 来 实现 高 速 通信 。 

[25 ] < 6.6 > 比较 这 两 种 互 连 技术 的 带宽 和 延迟 。 

参照 图 6-14b 中 给 出 的 3 阶 n 维 立方 体 互 连 拓扑 结构 ， 它 将 8 个 节点 进行 了 互 连 。n 维 立 方 体 互 
连 拓扑 的 一 个 优势 是 在 部 分 互 连 损坏 的 情况 下 依然 可 以 保持 连接 性 。 

[ 10 ] < 6.8 >n 维 立方 体 中 最 多 有 多 少 互 连 损 坏 时 还 能 保证 任何 节点 依然 能 够 连接 ? 请 写 出 计算 
公式 

[10] <6.8 > 比较 n 维 立 方 体 和 全 互连网 络 的 可 靠 性 。 随 着 损坏 的 连接 增加 ， 面 图 比较 两 种 拓扑 
何 时 会 连接 失效 。 
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基准 测试 程序 用 于 在 指定 的 计算 平台 上 运行 有 代表 性 的 工作 负载 ， 从 而 比较 不 同系 统 之 间 的 性 
能 。 在 本 题 中 ， 我 们 将 比较 两 种 基准 测试 程序 : Whetstone CPU 基准 测试 程序 和 PARSEC 基 
准 测试 集 。 从 PARSEC 中 选择 一 个 程序 。 所 有 程序 都 可 从 网 上 免费 下 载 。 考 虑 将 Whetstone 
的 多 份 拷贝 或 PARSEC 运行 在 6.11 节 描 述 的 系统 上 。 

[ 60 ] < 6.10 > 两 种 工作 负载 运行 在 这 些 多 核 系统 上 时 ， 本 质 区 别 是 什么 ? 

[60 ] < 6.10 > 使 用 Roofline 模型 的 相关 术语 ， 分 析 在 运行 这 些 基 准 测试 程序 时 ， 运 行 结果 与 工 
作 负 载 的 共享 和 同步 数量 的 相关 性 。 

在 计算 稀 琉 矩阵 时 ， 存 储 的 延迟 至 关 重 要 。 由 于 稀 玻 矩阵 缺乏 矩阵 操作 中 常见 的 空间 局 部 性 ， 
所 以 需要 研究 新 的 矩阵 表示 方法 。 

最 早 的 稀 朴 矩阵 表示 方法 之 一 是 Yale 稀疏 矩阵 格式 。 它 使 用 3 个 一 维 数组 存储 m xn 的 矩阵 
M。 令 R 人 代表 M 中 的 非 零 项 数目 。 我 们 构造 一 个 长 度 为 R 的 数组 4 存储 M 中 的 所 有 非 零 项 
(按照 从 左 到 右 、 从 上 到 下 的 顺序 )。 我 们 再 构造 一 个 长 度 为 m+1 的 数组 14 (每 行 一 项 ， 再 加 
一 )。14(i) 包含 第 i 行 中 第 一 个 非 零 项 在 4 中 的 索引 号 。 原 和 矩阵 中 第 i 行 的 元 素 可 从 4(14()) 
到 4A(14(i+1)--1) 得 到 。 第 三 个 数组 J4 包含 4 中 每 个 元 素 的 列 号 ， 因 此 它 的 长 度 也 为 R。 

[15 ] <6.10> 分 析 下 面 的 稀 玖 矩阵 了 了， 并 编写 C 程序 将 其 存储 为 Yale 稀 朴 矩阵 格式 。 
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[ 10 ] <6.10> 在 存储 空间 方面 ， 假 定 矩 阵 匀 中 的 每 个 元 素 都 是 单 精度 浮 点 格式 ， 如 果 用 Yale 稀 
玻 矩 阵 格 式 存储 上 面 的 矩阵 ， 请 计算 共 需 多 少 存储 空 间 。 

[ 10 ] < 6.10 > 执行 下 面 给 出 的 矩阵 忒 和 矩阵 了 的 矩阵 乘 。 

2 ee ad 


将 该 计算 放 入 循环 中 ， 并 对 执行 过 程 进行 计时 。 确 保 增 加 循环 执行 的 次 数 ， 以 在 时 间 测 量 
中 获得 较 好 的 分 辨 率 。 比 较 原始 表示 方法 的 矩阵 运行 时 间 和 使 用 Yale 稀 朴 矩阵 格式 的 运行 
时 间 。 

[ 15 ] < 6.10 > 你 是 否 能 够 找到 更 加 有 效 的 稀疏 矩阵 表示 方法 (考虑 空间 和 计算 开销 ) ? 

在 未 来 的 系统 中 ， 我 们 期 待 能 够 看 到 由 异 构 CPU 构成 的 异 构 计 算 平 台 。 在 嵌入 式 处 理 相 关 市 
场 ， 一 些 同 时 包含 浮 点 DSP 和 微 控 制 CPU 的 多 芯片 模块 包 的 系统 已 经 开始 出 现 。 
假定 你 有 三 类 CPU: 

e CPU A: 每 周期 可 执行 多 条 指令 的 中 速 多 核 CPU (有 一 个 浮 点 单元 )。 

e CPU B: 每 周期 可 执行 单条 指令 的 快速 单 核定 点 CPU (无 浮 点 单元 )。 

e CPU C: 每 周期 可 执行 相同 指令 的 多 个 副本 的 慢 速 向 量 CPU (具备 浮 点 运算 能 力 )。 

假定 处 理 器 在 下 面 的 频率 运行 : 





1GHz | 3GHz | 250MHz 














在 每 个 时 钟 周期 ，CPU A 可 以 执行 2 条 指令 ，CPU B 可 以 执行 1 条 指令 ，CPU C 可 以 执行 8 
条 指令 (来 自 相同 指令 )。 假 定 所 有 的 操作 在 单 周 期 延迟 中 完成 执行 ， 且 没有 任何 冒险 。 
三 个 CPU 均 可 执行 定点 算术 运算 ,但 是 CPU B 不 能 执行 浮 点 算术 运算 。CPU A 和 B 具有 与 
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RISC-V 处 理 器 相似 的 指令 系统 。CPU C 仅 能 执行 浮 点 加 减 以 及 存储 器 存 取 操 作 。 假 定 所 有 
CPU 均 可 访问 共享 存储 ， 并 且 同 步 的 开销 为 零 。 

我 们 的 任务 是 比较 两 个 矩阵 式 和 了， 它们 每 个 都 包含 1024 x 1024 个 浮 点 元 素 。 输 出 结果 应 是 
指示 和 矩阵 蕊 中 某 处 的 值 比 和 矩阵 了 中 的 值 大 或 相等 的 个 数 。 

[10 ] < 6.11 > 请 描述 如 何 划分 该 问题 到 3 个 不 同 的 CPU 上 ， 以 获得 最 佳 性 能 。 

[10] < 6.11 > 为 向 量 CPU C 中 增加 哪 类 指令 ， 以 获得 更 好 的 性 能 ? 

本 题 着 眼 于 给 定 最 大 事务 处 理 速 率 的 系统 中 发 生 的 排队 量 ， 以 及 事务 观察 到 的 平均 延迟 。 延 迟 
包括 服务 时 间 (根据 最 大 速率 计算 ) 和 排队 时 间 。 

假定 一 个 四 核 计算 机 系统 可 以 在 稳定 状态 处 理 最 大 请 求 速率 的 数据 库 查询 ， 同 时 假定 每 个 事 
务 平均 花费 固定 的 时 间 来 处 理 。 下 表 给 出 了 几 对 事务 延迟 和 处 理 速率 。 对 于 表 中 的 每 一 对 数 
据 ， 回 答 如 下 问题 : 

















平均 事务 延迟 最 大 事务 处 理 速 率 
fe 1ms 5000/sec 
| 2ms 5000/sec 
| 1ms 10 000/sec 
| 2ms | 10 000/sec 








[10] <6.11> 在 任意 时 刻 , 平均 有 多 少 请 求 被 处 理 ? 

L 10] < 6.11 > 如 果 移 到 8 核 的 系统 中 ， 理 想 情 况 下， 系统 的 吞吐 量 将 发 生 什么 变化 (计算 机 每 
秒 处 理 多 少 请 求 ) ? 

[ 10 ] < 6.11 > 讨论 为 什么 通过 简单 地 增加 核 的 数量 ,我 们 很 少 获得 这 种 加 速 ? 
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A.1 引言 


本 附录 简要 讨论 了 逻辑 设计 的 基础 知识 ， 但 无 法 取代 逻辑 设计 “| 赤 一 如 阮 往 地 爱 着 这 个 
课程 ， 也 不 能 保证 让 你 设计 出 重要 的 逻辑 系统 。 不 过 ， 如 果 你 很 少 | 词 布尔 。 
或 根本 没有 接触 过 逻辑 设计 ， 本 附录 将 为 你 理解 本 书 中 的 材料 提供 | 2 
足够 的 背景 知识 。 此 外 ， 本 附录 还 能 帮助 你 了 解 计算 机 是 如 何 实现 。 | (gizwmon 扩大 + 论文 赤 允 
的 。 如 果 仍 想 进一步 了 解 有 关 膛 辑 设计 的 知识 ， 可 以 参阅 书 未 参考 | Gee 2 在 /9 和 和 
文献 提供 的 信息 。 尖 计 ) 

A.2 节 介绍 了 逻辑 电路 的 基本 组 成 单元 一 门 。A.3 节 使 用 这 些 
门 来 构建 不 包含 存储 器 件 的 简单 组 合 罗 辑 系统 。 如 果 接 触 过 逻辑 或 数字 系统 ， 会 比较 熟悉 前 
两 部 分 内 容 。A.5 节 介 绍 了 如 何 使 用 A.2 节 和 A.3 节 的 思想 来 设计 RISC-V 处 理 器 的 ALU。 
A.6 节 介绍 了 如 何 构建 快速 加 法 器 ， 如 果 你 对 此 不 感 兴趣 ， 可 以 放心 跳 过 。A.7 节 简 要 介绍 
了 “时 钟 "， 这 是 讨论 存储 元 件 如 何 工作 所 必需 的 。A.8 节 介绍 了 存储 器 件 ，A.9 节 进 一 步 扩 
展 并 集中 介绍 随机 访问 存储 器 ; 这 两 节 描述 了 存储 器 件 的 特点 和 背景 ， 这 些 特 点 对 于 理解 如 
何 使 用 存储 器 件 来 说 至 关 重要 (如 第 4 章 所 述 )， 该 背景 引发 了 存储 器 层次 结构 设计 的 多 个 方 
面 (如 第 5 章 所 讨论 )。A.10 节 描述 了 有 限 状态 自动 机 的 设计 和 使 用 ， 有 限 状 态 自动 机 又 被 
称 为 时 序 逻 辑 单元 。 如 果 打 算 阅 读 附 录 C， 需 要 完全 理解 A.2 ~ A.10 节 的 内 容 。 如 果 只 阅 
读 第 4 章 中 控制 相关 的 内 容 ， 可 以 仅 浏览 附录 ， 但 也 应 该 大 致 熟悉 除 A.11 节 以 外 的 所 有 内 
容 。A.11 节 面 向 那些 希望 更 加 深入 理解 时 钟 同步 方法 和 时 序 的 读者 ， 解 释 了 边沿 触发 的 时 钟 
同步 逻辑 工作 的 基本 原理 ， 介 绍 了 另 一 种 时 钟 同 步 方案 ， 并 简要 描述 了 异步 输入 的 同步 问题 。 

本 附录 中 ， 在 适当 的 地 方 增加 了 描述 逻辑 的 Verilog 代码 段 (将 在 A.4 节 中 介绍 )。 完 整 
的 Verilog 教程 收录 在 本 书 的 网 站 中 。 


A.2 门 、 真 值 表 和 逻辑 方程 


现代 计算 机 的 内 部 电子 元 件 是 数字 电路 。 数 字 电 子 元 件 仅 在 两 个 电压 水 平 下 运行 : 高 电 
压 和 低 电压 。 所 有 其 他 电压 值 均 为 瞬时 值 ， 且 出 现在 两 个 电压 值 转换 过 程 中 。( 正 如 本 节 后 
面 所 讨论 的 ， 数 字 电路 设计 中 可 能 存在 的 缺陷 是 : 当 信号 不 是 明确 的 高 电压 或 低 电压 时 就 对 
信号 进行 采样 。) 数字 式 的 计算 机 也 是 其 使 用 二 进 制 数 的 一 个 重要 原因 ， 因 为 二 进 制 系统 可 以 
匹配 电子 元 件 中 的 底层 抽象 。 在 不 同 的 逻辑 系列 中 ， 两 个 电压 值 以 及 它们 之 间 的 关系 是 不 同 
的 。 因 此 ， 我 们 不 参考 电压 水 平 的 高 低 ， 而 是 谈论 (逻辑 上 ) 为 真 、 
为 1 或 有 效 (asserted) 的 信号 ， 或 者 (逻辑 上 ) 为 假 、 为 0 或 无 效 a 
(deasserted) 的 信号 。 称 值 0 和 1 彼此 互补 或 反 转 。 - 

根据 逻辑 块 是 否 包 含 存储 器 ， 将 其 分 为 两 类 。 不 包含 存储 器 
的 块 称 为 组 合 电路 ， 组 合 电路 的 输出 仅 取决 于 当前 输入 。 在 含有 存 





无 效 信号 : (逻辑 上 ) 为 假 
或 0 的 信号 。 





远大 朗 人 计 基 础 403 








储 器 的 块 中 ， 输 出 可 以 由 输入 和 存储 在 存储 器 中 的 值 ( 称 该 值 为 逮 | 组 合 逻辑 : 块 中 不 包含 存 
辑 块 的 状态 ) 共同 决定 。 在 本 节 和 下 一 节 中 ， 我们 仅 关 注 组 合 逻 辑 司 吕 从 旺 同 此 始 完 相间 答 
(combinational logic)。 在 A.8 节 介 绍 完 不 同 的 存储 元 件 之 后 ， 再 描 tn 
述 如 何 设计 包含 状态 的 时 序 逻 辑 (sequential logic)。 


A.2.1 真 值 表 


由 于 组 合 逻 辑 块 不 包含 存储 器 ， 因 此 通过 为 每 个 可 能 的 输入 值 | 时 序 逻 辑 ， 决 中 包含 存储 
集合 定义 对 应 的 输出 值 就 可 以 完全 指定 一 个 组 合 逻辑 电路 。 这 种 确 | 器 件 且 因此 输出 值 同 时 取 
定 的 对 应 关系 通常 用 真 值 表 给 出 。 对 于 一 个 包含 上 个 输入 的 逻辑 块 ， | 大 和 
存在 许多 可 能 的 输入 值 组 合 ， 因 此 真 值 表 含 有 2” 个 表 项 。 每 个 表 项 
为 特定 输入 组 合 指定 所 有 的 输出 值 。 


| 例题 | 真 值 表 各 
假设 一 个 具有 4、B、C 三 个 输入 和 DD、E、F 三 个 输出 的 逻辑 函数 。 函 数 定义 如 下 : 如 

果 有 一 个 输入 为 真 ， 则 DD 为 真 ; 如 果 有 两 个 输入 为 真 ， 则 五 为 真 ; 仅 当 三 个 输入 都 为 真 时 ， 

五 才 为 真 。 写 出 该 函数 的 真 值 表 。 

| 答案 | 该 真 值 表 应 包含 23=8 个 表 项 。 如 下 所 示 : 





























he 
0 0 0 | 一 潭 0 0 
0 0 1 1 0 0 
0 1 0 1 0 0 
0 1 1 1 1 0 
1 0 0 1 0 0 
1 | 0 1 1 1 0 
1 1 0 1 1 0 
1 1 1 1 0 1 





























一 请 


真 值 表 可 以 完整 地 描述 任何 组 合 罗 辑 函 数 ， 但 其 表 项 增长 很 快 ， 且 可 能 不 容易 理解 。 有 
时 我 们 想 构 造 一 个 对 于 许多 输入 组 合 均 为 0 的 逻辑 函数 ， 此 时 可 以 使 用 仅 列 举 非 零 输 出 表 项 
的 简化 真 值 表 。 这 种 方法 在 第 4 章 和 附录 C 中 用 到 。 


A.2.2 布尔 代数 


另 一 种 方法 是 用 逻辑 方程 表示 逻辑 函数 。 这 可 以 通过 使 用 布尔 代数 〈 以 19 世纪 数学 家 
布尔 的 名 字 来 命名 ) 来 完成 。 在 布尔 代数 中 ， 所 有 变量 的 值 非 0 即 1， 在 典型 的 表达 式 中 有 
三 个 运算 符 : 

或 操作 记 作 +， 如 4 + BB。 如 果 任 一 变量 为 1， 则 或 操作 的 结果 为 1。 因 为 任 一 操作 数 
为 1， 则 结果 为 1， 所 以 或 操作 也 称 为 逻辑 和 。 

与 操作 记 作 . ， 如 4 3。 只 有 当 两 个 输入 都 为 1 时， 与 操作 的 结果 才 为 1。 因为 仅 
当 两 个 操作 数 均 为 1 时 ， 结 果 才 为 1， 所 以 与 操作 也 称 为 逻辑 积 。 
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e 一 元 非 操 作 写 为 4。 仅 当 输入 为 0 时 ， 非 操作 的 结果 才 为 1。 我们 将 非 操 作 应 用 于 逻 
辑 取 反 (例如 ， 如 果 输 入 为 0 则 输出 为 1， 反之 亦 然 )。 

布尔 代数 中 的 某 些 定 律 有 助 于 操作 逮 辑 方程 。 

e 恒 等 定律 : 4+0=4, 4 .1=4 

e 0/1 定律 : 4+1=1,， 4: 0=0 

e 互补 律 : 4+4=1，4 .4=0 

e 交换 律 : 4+B=B+4，4.B=B .14 

e@ 结合 律 : A+ (B+C)=(4+B)+C, 4.(B* C)=(4*B).C 

e 分 配 律 : 4 : (B+C)=(4:B)+(4: C), 4+(B: C)=(4+B): (4+C) 

除 此 之 外 ， 还 有 两 个 有 用 的 定律 ， 称 为 德 摩根 ( DeMorgan) 定律 ， 在 练习 中 将 进行 深入 
讨论 。 


任何 一 组 逻辑 函数 都 可 以 写成 一 系列 方程 式 ， 每 个 方程 式 的 左 侧 为 输出 ， 右 侧 为 变量 和 





| 例题 | 逻辑 方程 式 = 
写 出 上 一 示例 中 描述 的 逻辑 图 数 刀 、 巨 、 互 的 逻辑 方程 式 。 
| 答案 | D 的 方程 式 为 : 


D=A+B+C 
F 的 方程 式 同样 简单 ， 为 : 
F=A.B*C 
EE 的 方程 式 稍 显 复杂 。 可 以 将 其 分 为 两 部 分 当 为 真 时 ， 哪 些 输入 组 合 必须 为 真 (三 个 输 
入 中 的 两 个 必须 为 真 )， 而 哪些 输入 组 合 不 可 能 为 真 ( 所 有 三 个 都 不 为 真 )。 因 此 五 可 以 写成 
BE=((4.B)+(4 CI+(B.C)) 4 .83 C) 
我 们 也 可 以 通过 另 一 种 方法 得 到 的 逻辑 方程 式 ， 当 且 仅 当 两 个 输入 均 为 真 时 , 才 为 真 。 
因此 ， 可 以 将 E 写 为 具有 两 个 输入 为 真 和 一 个 输入 为 假 的 输入 组 合 的 或 操作 : 
E=(A.B.C)+(4.C.B)+(B.C.4) 
章 末 练习 中 将 验证 两 个 逻辑 等 式 是 等 价 的 。 


在 Verilog 中 ,我们 尽 可 能 使 用 赋值 语句 来 描述 组 合 逻 辑 ， 该 语句 将 从 A.4 节 开 始 介绍 。 
我 们 可 以 使 用 Verilog 的 异 或 操作 来 定义 E: assign E =(A&(B^C))|(B&C&~A)， 这 是 
该 函数 的 另 一 种 描述 方式 。D 和 的 表示 就 更 简单 了 (就 像 对 应 的 C 代码 一 样 ) : assign 
D = AlB|C,assign F = A&B&Ce 





A2.3 TF] 


逻辑 块 由 实现 基本 好 辑 功能 的 门 ( gate) 构成 。 例 如 ， 与 门 实现 门 : 实现 基本 这 辑 函 数 的 
与 操作 ， 或 门 实现 或 操作 。 由 于 与 和 或 操作 都 是 可 交换 、 可 结合 的 ， | 设备 , 例如 与 门 、 或 门 。 
因此 与 门 和 或 门 可 以 有 多 个 输入 ， 输 出 等 于 所 有 输入 的 与 操作 或 者 
或 操作 。 人 逻辑 非 操 作 通过 一 个 始终 具有 单个 输入 的 反 相 器 实现 。 这 三 种 逻辑 构建 块 的 标准 表 
示 如 图 A-2-1 所 示 。 
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= 


门 、 或 门 、 非 门 的 标准 表示 形式 。 每 个 门 的 左 侧 为 输入 信号 ， 右 侧 为 输出 信 


图 A-2-1 与 i 
号 。 与 门 和 或 门 均 为 两 个 输入 信号 ， 非 门 仅 有 单个 输入 信和 号 


通常 不 直接 绘制 反 相 器 ， 而 是 在 门 的 输入 4+8 或 输出 端 添 加 “气泡 ”， 以 表示 该 输入 


线 或 输出 线 上 的 逻辑 值 取 反 。 例 如 ， 图 A-2-2 展示 了 函数 的 逻辑 图 ， 左 侧 使 用 显 式 反 相 器 表 
示 ， 右 侧 使 用 带 “ 气 泡 ” 的 输入 和 输出 表示 。 


A A 
B B 
图 A-2-2 ”用 逻辑 门 实现 了 + 8 ， 左 侧 使 用 显 式 反 相 器 ， 右 侧 使 用 带 气泡 的 输入 和 输出 。 该 
逻辑 函数 可 以 被 简化 为 4. B 或 用 Verilog 表示 为 A&~B 


与 、 或 、 非 门 可 以 构造 任意 逻辑 函数 ; 可 以 通过 章 末 练 习 来 尝试 使 用 门 电路 实现 一 些 党 
见 的 罗 辑 函数 。 在 下 一 节 中 ， 我 们 将 介绍 如 何 使 用 这 些 门 电路 来 构建 任意 逻辑 函数 。 
事实 上 ， 所 有 逻辑 函数 都 能 用 单一 门 电路 构建 ， 只 要 该 门 电路 
是 反 相 门 电路 。 两 种 常见 的 反 相 门 电路 为 或 非 门 (NOR) 和 与 非 门 “| 或 非 门 : 或 门 取 反 。 
(NAND)， 分 别 对 应 于 或 (OR) 门 的 反 相 操作 和 与 (AND) 门 的 反 相 
操作 。 或 非 门 和 与 非 门 被 称 为 万 能 门 电路 ， 因 为 任何 逻辑 函数 都 可 “| 与 非 门 : 与 门 取 反 。 
以 使 用 这 种 类 型 的 门 电路 构建 。 练 习 中 将 进一步 探索 这 一 
ET 
et 
。 (A:B.C)+(AC. ， | 
e@ 了 . vu Go. A 










A.3 ”组 合 逻 辑 电 路 

在 本 节 中 ,我们 将 介绍 一 些 常用 的 较 大 的 逻辑 单元 ， 并 讨论 结构 化 逻辑 设计 ， 这 些 结构 
化 逻辑 可 以 通过 一 个 根据 逻辑 方程 或 真 值 表 的 转换 程序 自动 实现 。 最 后 ， 我 们 将 讨论 逻辑 阵 
列 的 概念 。 


A.3.1 译 码 器 


译 码 器 ( decoder) 是 用 于 构造 更 大 组 件 的 一 种 逻辑 单元 。 最 常 “| 泽 码 器 : 具有 nn 位 输入 和 
见 的 译 码 器 有 位 输入 和 2” 个 输出 ， 其 中 每 种 输入 组 合 仅 对 应 一 个 “| 2 个 输出 的 逻辑 单元 ， 其 
输出 。 该 译 码 器 将 n 位 输入 转化 为 对 应 于 位 二 进 制 值 的 信号 。 因 | 等 帮 给 入 组 合 仅 对 应 于 
此 个 输出 通常 被 标 作 Out0，Outl，…，Out2"_-1。 如 果 输入 的 值 【一个 给 岂 。 
是 i， 那 么 Out 为 真 ， 其 他 所 有 输出 均 为 假 。 图 A-3-1 给 出 了 一 
位 译 码 器 及 其 对 应 的 真 值 表 。 该 译 码 器 有 3 位 输入 和 8 (23 ) 个 输出 ， 因 此 称 为 3-8 译 码 器 。 
此 外 ， 还 有 一 种 称 作 编 码 器 的 逻辑 元 件 ， 它 与 译 码 器 的 功能 正好 相反 。 编 码 器 有 2" 个 输入 并 
产生 nn 位 输出 。 
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输入 

































































输出 
ou 
Qutd 0 0 0 0 0 0 0 0 0 0 1 
Out2 0 0 1 0 0 0 0 0 0 0 
3 Out3 0 1 0 0 0 0 0 0 1 0 0 
Decoder Da 0 出 1 0 人 | 于 有 0 1 0 0 0 
1 0 0 0 0 0 1 0 0 0 0 
Out5 1 0 1 0 0 1 0 0 0 0 0 
Out6 1 和 0 0 0 0 0 0 0 0 
Out7 1 1 不 fj 0 0 0 0 0 0 0 
a ) 3 位 译 码 器 b ) 3 位 译 码 器 对 应 的 直 值 表 


图 A-3-1 3 位 译 码 器 ， 包 含 3 位 输入 (12、11、10 ) 和 23=8 (Out0~Out7 ) 个 输出 。 只 有 与 
输入 的 二 进 制 值 相对 应 的 输出 为 真 (如 真 值 表 所 示 )。 输 入 处 的 标号 3 表示 输入 


信号 为 3 位 宽 


A 
A 0 
M 
u C C 
X 
B 1 
B 
S S 


图 A-3-2 ” 左 侧 为 两 输入 多 选 器 ， 右 侧 是 其 门 电路 实现 。 多 选 器 有 两 个 输入 端 (4 和 B), 分 
别 标记 为 0 和 1， 以 及 一 个 选择 信号 (S) 和 一 个 输出 端 (C)。 用 Verilog 实现 多 选 
器 需要 相对 较 多 的 工作 量 ， 尤 其 是 当 输入 端 大 于 两 位 宽 时 。 我 们 将 从 A.4 节 开 始 
讲解 如 何 实现 


A.3.2 ”多 选 器 


在 第 4 章 中 经 常用 到 的 一 个 基本 逻辑 功能 单元 就 是 多 选 器 。 称 | 选择 器 值 : 也 称 作 控制 值 。 
其 为 选择 器 可 能 比 多 选 器 更 为 合适 ， 因 为 它 的 输出 是 控制 元 件 从 ”| 用 于 从 多 选 器 的 输入 信号 
输入 中 选 出 的 一 个 。 考 虑 双 输 入 多 选 器 。 图 A-3-2 的 左 侧 给 出 了 该 | 中 选 出 一 个 作为 其 输出 信 
多 选 器 的 三 个 输入 : 两 个 数据 值 和 一 个 选择 器 (控制 ) 值 (selector | “人 
( control) value)。 选 择 器 值 确定 哪个 输入 信号 将 成 为 输出 信号 。 

图 A-3-2 右 侧 的 门 电路 表示 由 双 输 入 多 选 器 计算 的 逻辑 函数 : C= (4 .SS) + (B: 5S)。 

多 选 器 可 以 有 任意 数量 的 输入 信号 。 当 只 有 两 个 输入 时 ， 选 择 器 只 需要 单个 信号 ， 如 果 
选择 信号 为 真 ( 1 )， 则 选择 其 中 一 个 输入 作为 输出 ; 如 果 选 择 信号 为 假 (0 )， 则 选择 另 一 个 
输入 作为 输出 。 如 果 有 个 数据 输入 ， 则 需要 [1log,n | 个 选择 信号 。 此 时 的 多 选 器 包含 以 下 
三 个 部 分 : 

1. 产生 n 个 信号 的 译 码 器 ， 每 个 信号 指示 一 个 不 同 的 输入 信号 值 

2.n 个 与 门 组 成 的 阵列 ， 每 个 与 门将 一 个 输入 信号 和 对 应 于 译 码 器 的 一 个 信号 相 结合 。 

3. 单个 大 的 或 门 ， 用 来 合并 与 门 的 输出 。 

为 了 将 输入 信号 与 选择 器 值 相关 联 ， 我 们 经 常用 数字 来 标记 数据 输入 信号 (如 0，1，2， 
3，…，7m-1)， 并 将 数据 选择 器 输入 信和 号 转化 为 二 进 制 数 。 有 时 ， 也 使 用 具有 未 解码 选择 信 
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号 的 多 选 右 。 
在 Verilog 中 ， 通 过 使 用 让 语句 ， 可 以 很 容易 地 以 组 合 方式 表示 多 选 右 。case 语句 对 于 
更 大 的 多 选 器 来 说 更 方便 ， 但 必须 注意 组 合 逻 辑 合成 。 


A.3.3 两 级 逻辑 和 PLA 


如 上 节 所 述 ， 任 何 逻 辑 函 数 都 只 能 用 与 、 或 、 非 功能 实现 。 事 ”| 析 取 范 武 ， 一 种 用 来 对 远 
实 上 ， 存 在 更 强大 的 实现 方式 。 任 何 逻 辑 函 数 都 可 以 写成 一 种 规范 “| 辑 积 (与 操作 ) 求 运 辑 和 
形式 ， 其 中 每 个 输入 非 真 即 假 ， 且 只 有 两 级 门 电路 (与 门 和 或 门 )， | (或 操作 ) 的 运 辑 表达 式 。 
最 终 输出 可 以 取 非 。 这 种 表示 方法 称 为 两 级 表示 ， 它 有 两 种 形式 : 

析 取 范式 (sum of products) 和 合 取 范 式 (product of sums ) 。 合 取 范 式 表示 的 是 对 逻辑 积 (与 
操作 ) 结果 求 逻 辑 和 (或 操作 )， 析 取 范 式 则 恰好 相反 。 在 前 面 的 示例 中 ， 有 两 个 输出 的 
等 式 : 





EE=((4-B)+ (AC + (BCAA BC) 
和 
E= (dB tA CB) (BC .A 
其 中 第 二 个 表达 式 即 为 析 取 范式 表示 形式 : 具有 两 级 逻辑 且 只 对 单个 变量 取 非 。 第 一 个 表达 
式 包含 三 级 逻辑 。 
| 说 细 阐 述 5 也 可 以 写作 合 取 范 式 表示 形式 : 
BC AtCFBLU BF CEA) 
为 了 得 到 这 种 表示 形式 ， 需 要 使 用 德 摩根 定律 ， 章 末 练 习 中 将 对 其 进行 讨论 。 

在 本 章 中 ， 我 们 使 用 析 取 范式 形式 。 显 而 易 见 ， 任 何 逻 辑 函 数 都 可 以 通过 其 真 值 表 来 构 
造 出 析 取 范式 表示 形式 。 使 函数 为 真 的 每 个 真 值 表 项 对 应 于 一 个 乘积 项 。 乘 积 项 由 所 有 输入 
或 输入 取 反 后 的 逻辑 积 组 成 ， 是 否 取 反 取决 于 真 值 表 中 变量 对 应 的 表 项 是 0 还 是 1。 逻 辑 函 
数 就 是 使 函数 为 真 的 逻辑 积 的 逻辑 求 和 。 通 过 示例 可 以 更 容易 地 理解 这 一 点 。 


| 例题 | 析 取 范式 外 
写 出 以 下 真 值 表 中 也 的 析 取 范式 表达 式 。 





输出 






| 





























| 
已 


上 | 上 | 必 六 | 上 DIDID|ID| 
FIDIelFIFIDIODIIE 
FIeleolFIelFIFRID 




















| 答案 | 真 值 表 中 ,在 4 种 不 同 的 输入 组 合 下 D 为 真 ( 1 )， 因 此 有 4 个 乘积 项 。 分 别 如 下 : 


S| Xl 
多 | 


C 
sts 
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BG 
BE 
由 此 ， 可 以 将 以 上 乘积 项 逻辑 相 加 ， 得 到 忆 的 函数 : 


D(A (dB) CBC (CAB 0) 


注意 : 只 有 使 函数 为 真 的 真 值 表 表 项 ， 才 能 在 等 式 中 生成 对 应 的 乘积 项 。 





可 以 利用 真 值 表 和 两 级 表示 之 间 的 关系 来 生成 任何 逻辑 函数 集 | 可 编程 逻辑 阵列 : 一 种 结 


的 门 级 实现 。 一 组 逻辑 函数 对 应 于 一 个 含有 多 个 输出 列 的 真 值 表 ， 
正如 A.2.1 节 的 例题 所 示 。 每 个 输出 列表 示 一 个 不 同 的 逻辑 图 数 ， 
都 可 以 直接 根据 真 值 表 构 造 出 来 。 

析 取 范式 表示 对 应 于 一 种 称 作 可 编程 逻辑 阵列 ( Programmable 
Logic Array，PLA) 的 常用 结构 化 逻辑 实现 。PLA 具有 一 组 输入 及 
其 输入 取 反 (可 以 通过 一 组 反 相 如 实现 ) 的 逻辑 单元 集 和 两 级 逻辑 
结构 。 第 一 级 逻辑 结构 是 与 门 阵 列 ， 用 以 实现 乘积 项 (product term) 
(有 时 称 为 小 项 (minterm ) )， 每 个 乘积 项 可 以 由 任意 输入 或 输入 取 反 
组 成 。 第 二 级 逻辑 结构 是 或 门 阵 列 ， 每 个 或 门 产生 任意 数量 的 乘积 
项 的 逻辑 和 。 图 A-3-3 给 出 了 PLA 的 基本 形式 。 





构 化 逻辑 单元 ， 由 一 组 输 
入 和 对 应 的 输入 取 反 ， 以 
及 两 级 逻辑 组 成 。 第 一 级 
逻辑 用 于 生成 输入 和 输入 
取 反 的 乘积 项 ， 第 二 级 用 
于 生成 乘积 项 的 还 辑 和 。 
因此 ，PLA 将 逻辑 功能 实 
现 为 析 取 范式 。 


小 项 : 也 称 作 乘积 项 ， 通 
过 连接 符 (与 操作 ) 连接 
的 一 组 远 辑 输入 。 乘 积 项 
形成 PLA 的 第 一 级 逻辑 。 


图 A-3-3 PLA 的 基本 组 成 形式 : 与 门 阵 列 以 及 紧 随 其 后 的 或 门 阵列 。 与 门 阵 列 的 每 一 项 为 
若干 输入 或 输入 取 反 组 成 的 乘积 项 。 或 门 阵列 的 每 一 项 为 若干 乘积 项 的 逻辑 和 


PLA 可 以 根据 真 值 表 直 接 实现 多 输入 /输出 的 一 组 逻辑 函数 。 输 出 为 真 的 每 个 表 项 都 对 
应 一 个 乘积 项 ， 因 此 PLA 中 需要 有 相应 的 行 。 每 个 输出 对 应 于 第 二 级 逻辑 结构 中 或 门 阵列 
的 行 。 或 门 的 数量 对 应 于 真 值 表 中 输出 为 真 的 表 项 数量 。 如 图 A-3-3 所 示 ，PLA 的 总 大 小 等 
于 与 门 阵列 ( 称 为 与 平面 ) 的 大 小 和 或 门 阵列 ( 称 为 或 平面 ) 的 大 小 的 总 和 。 观 察 图 A-3-3 可 
以 看 到 ， 与 门 阵列 的 大 小 等 于 输入 变量 个 数 乘 以 不 同 乘积 项 个 数 ， 或 门 阵列 的 大 小 为 输出 变 


量 个 数 乘 以 乘积 项 个 数 。 


PLA 的 两 个 特点 决定 其 能 有 效 地 实现 一 组 逻辑 函数 。 首 先 ， 真 值 表 表 项 中 ， 至 少 一 个 
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输出 为 真 时 ， 才 具有 对 应 的 逻辑 门 。 其 次 ， 每 个 不 同 的 乘积 项 只 对 应 于 PLA 中 的 一 个 输入 ， 

即使 该 乘积 项 用 于 多 个 输出 。 下 面 看 一 个 示例 。 

| 例题 | PLA 
考虑 A.2.1 节 例 题 中 定义 的 逻辑 孔 数 集 。 写 出 该 示例 中 DD、E、F 玉 的 PLA 实现 。 

| 答案 | 这 是 我 们 在 前 面 构造 的 真 值 表 : 
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由 于 输出 部 分 至 少 有 1 个 真 值 的 独立 乘积 项 有 7 个， 因此 与 门 阵列 将 有 7 列 。 与 门 阵列 
中 行 数 为 3 (因为 有 3 个 输入 )， 或 门 阵列 也 是 3 行 ( 因 为 有 3 个 输出 )。 图 A-3-4 给 出 了 最 终 
的 PLA， 乘 积 项 从 上 到 下 对 应 真 值 表 表 项 。 





图 A-3-4 例题 中 描述 的 逻辑 函数 的 PLA 实现 








与 图 A-3-4 所 示 不 同 ， 设 计 者 通常 不 会 绘制 所 有 的 门 电路 ， 而 是 指出 与 门 和 或 门 的 位 
置 。 当 需要 相应 的 与 门 或 者 或 门 时 ， 在 乘积 项 信号 线 和 输入 /输出 线 的 交叉 点 上 用 点 标示 。 
图 A-3-5 即 为 图 A-3-4 使 用 该 方法 绘制 的 PLA 简化 图 。PLA 的 内 容 在 其 被 创建 时 就 固定 了 ， 
但 也 有 类 似 PLA 的 结构 ， 称 为 PAL， 当 设计 者 准备 使 用 时 ， 可 以 通过 电子 方式 编程 。 








与 平面 





图 A-3-5 在 矩阵 中 用 点 标示 乘积 项 及 其 逻辑 和 的 PLA。 通 常 所 有 输入 都 以 真 或 补 的 形式 连 
接 到 与 平面 上 ， 而 不 是 对 门 电路 使 用 反 相 器 。 在 与 平面 上 的 点 表示 该 输入 或 其 相 
反 值 在 该 乘积 项 中 存在 。 在 或 平面 上 的 点 表示 相应 的 乘积 项 出 现在 相应 的 输出 上 


A.3.4 ROM 


另 一 种 可 用 于 实现 一 组 逻辑 函数 的 结构 化 逻辑 形式 是 只 读 存 储 “| 只 读 存储 器 : 存储 内 容 在 
器 (Read-Only Memory, ROM)。ROM 包含 一 组 可 以 被 读 取 的 位 置 ， | 制造 时 就 固定 的 存储 器 ， 
因此 称 为 存储 器 ;但 是 ， 这 些 位 置 的 内 容 在 制造 ROM 时 就 固定 了 。 Re 
也 有 可 编程 只 读 存 储 器 (Programmable ROM，PROM)， 设 计 者 可 以 逻辑 函数 中 的 项 作为 地 址 
通过 电子 编程 写 信 内容。 还 有 可 擦 除 的 可 编程 只 读 存储 胡 ， 这 类 设 | 输入 ， 而 给 出 存储 器 中 对 
备 需 要 使 用 紫外 线 才能 缓慢 擦 除 ， 因 此 除了 设计 和 调试 过 程 中 用 到 pi 以 此 实现 一 组 
外 ， 它 们 也 只 用 作 只 读 存 储 器 。 Ee 

ROM 具有 一 组 输入 地 址 线 和 一 组 输出 。ROM 中 可 寻 址 单元 的 可 编程 只 读 存 储 器 . 只 读 
数量 决定 了 地 址 线 的 数量 : 如 果 ROM 包含 2" 个 可 寻 址 单元 ( 称 为 ”| 存储 器 的 一 种 ， 如 果 知 道 
高 度 )， 则 需要 m 条 输入 线 。 每 个 可 寻 址 单元 的 位 数 等 于 输出 位 数 ， | 其 内 容 ， 就 可 对 其 进行 
有 时 称 为 ROM 的 宽度 。ROM 的 总 位 数 等 于 高 度 乘 以 宽度 。 通 常 | 生生， 

ROM 的 高 度 和 宽度 决定 了 ROM 的 形状 。 

ROM 可 以 根据 真 值 表 对 逻辑 函数 集 进行 直接 编码 。 例 如 ， 如 果 有 nn 个 具有 m 个 输入 的 
函数 ， 则 需要 一 个 具有 m 条 地 址 线 ( 2” 个 单元 ， 每 个 单元 为 n 位 宽 ) 的 ROM。 真 值 表 输入 
部 分 的 表 项 表示 ROM 单元 的 地 址 ， 而 输出 部 分 的 内 容 构 成 ROM 的 内 容 。 如 果真 值 表 输入 
部 分 的 表 项 序列 被 组 织 成 二 进 制 数 序列 (正如 到 目前 为 止 所 示 的 所 有 真 值 表 )， 则 输出 部 分 也 
按 顺 序 给 定 ROM 内 容 。 在 之 前 关于 PLA 的 例题 中 ， 有 3 个 输入 和 3 个 输出 。 因 此 ROM 具 
有 2 = 8 个 入 口 地 址 ， 每 个 3 位 宽 。 这些 入 口 的 内 容 按 地 址 递增 的 顺序 直接 由 例题 中 真 值 表 
的 输出 部 分 给 出 。 

ROM 和 PLA 密 不 可 分 。ROM 是 完全 译 码 的 ， 包 含 每 个 可 能 的 输入 组 合 的 完整 输出 字 ， 
而 PLA 仅 部 分 解码 ， 这 意味 着 ROM 始终 包含 更 多 入 口 。 对 于 上 道 例题 中 出 现 的 真 值 表 ， 
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ROM 包含 所 有 8 个 可 能 的 输入 ， 而 PLA 仅 包 含 7 个 有 效 的 乘积 项 。 随 着 输入 数量 的 增加 ， 
ROM 的 输入 单元 数 将 呈 指 数 增长 。 相 反 ， 对 于 大 多 数 实际 逻辑 函数 ， 乘 积 项 的 数量 增长 要 
慢 得 多 (参见 附录 C 中 的 例题 ) 。 这 种 差异 使 得 PLA 用 于 实现 组 合 逻 辑 函 数 更 加 有 效 。ROM 
的 优势 则 在 于 能 够 实现 输入 和 输出 数量 相 匹配 的 任何 逻辑 函数 。 这 个 优势 使 得 当 逻 辑 函 数 发 
生变 化 时 ，ROM 大 小 无 须 改 变 ， 只 需 随 之 改变 内 容 即 可 。 

除 ROM 和 PLA 外 ， 现 代 逻 辑 合成 系统 还 将 小 块 组 合 逻 辑 转化 为 可 以 自动 布局 和 布线 的 
门 电 路 集合 。 尽 管 一 些小 规模 门 电路 集合 通常 空间 利用 率 较 低 ， 但 对 于 简单 逻辑 函数 ， 它 们 
比 ROM 和 PLA 的 严格 结构 开销 更 低 ， 因 此 更 具 优 势 。 

对 于 定制 或 半 定 制 集成 电路 逻辑 设计 ， 常 见 的 选择 是 现场 可 编程 设备 ; 我 们 将 在 A.12 
节 中 描述 该 设备 。 


A.3.5 无 关 项 


通常 在 实现 某 些 组 合 逻 辑 时 ， 有 些 情况 下 我 们 不 关心 某 些 输出 的 值 是 什么 ， 其 原因 要 么 
是 男 一 个 输出 为 真 ， 要么 是 输入 组 合 的 子 集 决 定 了 输出 的 值 。 我 们 称 这 种 情况 为 无 关 项 。 由 
于 无 关 项 使 得 逻辑 函数 的 优化 实现 更 加 简单 ， 因 此 至 关 重要 。 

无 关 项 有 两 种 类 型 : 输出 无 关 项 和 输入 无 关 项 ， 两 者 都 能 在 真 值 表 中 体现 出 来 。 当 不 关 
心 某 些 输入 组 合 的 输出 值 时 ， 就 产生 了 输出 无 关 项 。 它 们 在 真 值 表 的 输出 部 分 表示 为 X。 当 
输出 对 于 某 些 输入 组 合 来 说 是 无 关 项 时 ， 设 计 者 或 逻辑 优化 程序 可 以 自由 地 对 这 些 输入 组 合 
输出 真 或 假 。 当 输出 仅 依赖 于 某 些 输入 时 ， 就 产生 了 输入 无 关 项 ， 它 们 在 真 值 表 的 输入 部 分 
也 记 为 X。 


| 例题 | 无 关 项 。 
考虑 一 个 输入 为 4、B、C 的 逻辑 函数 ， 其 定义 如 下 : 
e 如 果 4 或 C 为 真 ， 无 论 B 为何 值 ， 输出 DD 人 恒 为 真 。 
e 如 果 4 或 B 为 真 ， 无论 C 为 何 值 ， 输 出 E 恒 为 真 。 
e 如 果 仅 有 一 个 输入 为 真 ， 输 出 下 为 真 。 当 D 和 同时 为 真 时 ,FF 为 无 关 项 。 
写 出 这 个 逻辑 函数 完整 的 真 值 表 和 带 有 无 关 项 的 真 值 表 。 对 于 每 个 真 值 表 ，PLA 各 有 多 
少 个 乘积 项 呢 ? 
| 答案 | 以 下 是 不 考虑 无 关 项 的 完整 的 真 值 表 : 
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这 个 真 值 表 需 要 7 个 未 经 优化 的 乘积 项 。 带 有 输出 无 关 项 的 真 值 表 如 下 : 
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输入 输出 
PR 
0 0 ”1 0 T 0 0 
0 | 0 1 1 0 1 
0 | 1 0 0 | 1 1 
0 1 1 | 出 | 1 | X 
1 0 | 0 1 1 | X 
1 0 1 1 1 | x 
1 1 0 1 1 x 
1 1 1 1 Te 


























如 果 再 加 入 输入 无 关 项 ， 真 值 表 可 以 被 进一步 简化 为 如 下 形式 : 









































简化 后 的 真 值 表 对 应 的 PLA 只 需要 4 个 小 项 ， 或 者 可 以 用 1 个 双 输 入 与 门 和 3 个 或 门 
(2 个 有 3 个 输入 ，1 个 有 2 个 输入 ) 实现 。 而 原始 真 值 表 具 有 7 个 小 项 且 需 要 4 个 与 门 。 一 = 


逻辑 最 简化 对 于 有 效 实现 逻辑 电路 至 关 重 要 。 卡 诺 图 (Karnaugh map) 是 手工 实现 任意 
逻辑 最 简 式 的 有 效 工具 。 卡 诺 图 以 图 形 方式 表示 真 值 表 ， 因 此 很 容易 看 出 可 以 进行 组 合 的 乘 
积 项 。 然 而 ， 由 于 卡 诺 图 的 大 小 及 其 复杂 性 ， 用 来 手动 优化 大 型 逻辑 函数 是 不 现实 的 。 幸 运 
的 是 ， 逻 辑 简 化 过 程 是 高 度 机 械 化 的 ， 且 可 以 通过 设计 工具 来 现实 。 在 最 简化 过 程 中 ， 设 计 
工具 利用 了 无 关 项 的 特点 ， 因 此 无 关 项 的 识别 非常 重要 。 附 录 未 尾 的 参考 文献 进一步 讨论 了 
逻辑 最 简化 、 卡 诺 图 和 最 简化 算法 的 相关 理论 。 


A.3.6 ”逻辑 单元 阵列 


由 于 许多 组 合 操作 进行 数据 处 理 时 不 得 不 对 整个 数据 字 ( 64 位 ) | 总 线 :在 带 辑 设计 中 的 一 
进行 处 理 。 因 此 ， 常 常 构建 一 个 逻辑 单元 阵列 ， 可 以 简单 地 通过 给 | 组 数据 线 集合 ， 它 在 整体 
定 操作 作用 于 整个 输入 集合 来 实现 。 在 机 器 内 部 ， 大 多 数 时 候 都 需 | 让 人 时 
要 在 一 对 总 线 之 间 进 行 选 择 。 总 线 ( bus) 是 数据 线 的 集合 ， 这 些 数 | 部 如 据 线 史 集会、 也 可 训 
据 线 一 起 被 视 为 单个 逻辑 信号 。( 术 语 总 线 也 用 于 指示 具有 多 信号 源 | 闪 享 使 用 。 
和 多 设备 共享 的 线路 集合 。) 

例如 ， 在 RISC-V 指令 系统 中 ， 写 入 寄存 器 的 指令 的 结果 可 以 来 自 两 个 源 中 的 一 个 。 多 
选 器 用 于 选择 两 条 总 线 (每 个 64 位 宽 ) 的 哪 一 条 将 写 人 结果 寄存 器 。 如 果 是 前 面 提 到 的 1 位 
多 选 器 ， 则 需要 重复 64 次 (才能 将 结果 写 入 )。 

在 图 中 ， 我 们 用 加 粗 的 线 表示 信号 量 是 总 线 而 不 是 单个 的 1 位 信号 线 。 大 多 数 总 线 都 是 
64 位 宽 ， 和 否则 宽度 会 加 以 明确 标示 。 当 我 们 指出 一 个 逻辑 单元 的 输入 和 输出 是 总 线 时 ， 意 味 
着 该 逻辑 单元 必须 反复 多 次 以 适应 输入 线 的 宽度 。 图 A-3-6 展示 了 如 何 绘制 一 个 多 选 器 ， 如 
何在 一 对 64 位 总 线 之 间 进 行 选 择 ， 以 及 如 何 扩展 1 位 宽 多 选 器 。 有 时 ， 我 们 需要 构造 一 个 
逻辑 单元 阵列 ， 该 阵列 中 某 些 单元 的 输入 是 前 面 单元 的 输出 。 例 如 ， 这 就 是 多 位 宽 ALU 的 
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构造 原理 。 在 这 种 情况 下 ， 必 须 明 确 指出 如 何 产生 更 宽 的 阵列 ， 因 为 阵列 中 的 各 个 单元 不 再 
是 独立 的 了 ， 正 如 64 位 多 选 器 。 


Select 
A63 
C63 
B63 
A62 
C62 
B62 
Select s 
A 64 AO0 
SN GC Co 
B 64 BO 
b ) 64 位 宽 多 选 器 实际 是 64 个 
a ) 64 位 宽 2 选 1 多 选 器 1 位 多 选 器 组 成 的 陈列 


图 A-3-6 将 多 选 器 排列 64 次 以 实现 两 个 64 位 输入 的 选择 。 注 意 ， 对 所 有 的 64 个 1 位 多 
选 器 也 只 有 一 位 的 数据 选择 信号 
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A.4 使 用 硬件 描述 语言 


当前 ， 大 多 数 处 理 器 和 相关 硬件 系统 的 数字 设计 都 是 使 用 硬件 | 硬件 描述 语言 : 一 种 描述 
描述 语言 ( hardware description language) 完成 的 。 使 用 这 个 语言 有 ei ey 
两 个 目的 : 首先 ， 它 提供 了 硬件 的 抽象 描述 ， 可 用 来 对 设计 进行 模 | 学 请 和 本 天， 帮会 放 
拟 和 调试 ; 其次， 通过 使 用 逻辑 合成 和 硬件 编译 工具 ， 可 以 将 其 编 ”| 的 给 入 。 

译 成 硬件 实现 。 

在 本 节 中 ， 我 们 将 介绍 硬件 描述 语言 Verilog， 并 展示 其 如 何 用 于 组 合 逻 辑 设 计 。 在 附 
录 剩 余部 分 扩展 了 Verilog 的 使 用 ， 并 用 于 时 序 逻 辑 设 计 。 在 第 4 章 的 线 上 选读 部 分 中 , 我 
们 使 用 Verilog 来 描述 处 理 器 的 实现 。 在 第 5 章 的 线 上 选读 部 分 中 ， 使 用 System Verilog 来 描 
述 cache 控制 器 的 实现 。 相 对 于 Verilog，System Verilog 增加 了 一 些 结构 和 其 他 有 用 的 特征 。 

Verilog 是 两 种 主要 的 硬件 描述 语言 ， 男 一 个 是 VHDL。 相 
比 于 基于 Ada 语言 的 VHDL， 基 于 C 语言 的 Verilog 在 工业 界 使 用 
更 广泛 。 熟 悉 C 语言 的 读者 会 发 现 ， 我们 在 附录 中 使 用 的 Verilog 的 
基本 内 容 很 容易 理解 。 对 C 语言 语法 有 所 了 解 且 熟悉 VHDL 的 读 
者 ， 应 该 也 会 发 现 这 些 概念 很 简单 。 

Verilog 可 以 定义 数字 系统 的 行为 和 结构 。 行 为 规范 〈behavioral 
specification) 描述 了 数字 系统 的 功能 操作 。 结 构 规范 ( structural 
specification) 描述 了 数字 系统 的 详细 组 织 (通常 使 用 分 层 描述 )。 结 
构 规 范 可 以 从 基本 元 件 (如 门 和 开关 ) 层次 描述 硬件 系统 。 因 此 ， 可 | 结构 规范 : 描述 数字 系统 
以 使 用 Verilog 描述 上 一 节 中 真 值 表 和 数据 通路 的 具体 内 容 。 | 元 件 的 层次 化 连接 的 组 织 。 

随 着 硬件 综合 工具 ( hardware synthesis tool) 的 出 现 ， 大 多 数 设 
计 者 使 用 Verilog 或 VHDL 仅 对 数据 通路 进行 结构 化 描述 ， 再 通过 in 生 和 和 
逻辑 综合 工具 从 行为 描述 生成 控制 信和 号。 此外， 大 多 数 CAD 系统 都 | 忆 二 入 的 计 生 庆 生生 丰 
提供 标准 化 部 件 扩 展 库 ， 例 如 ALU、 多 选 器 、 寄 存 器 堆 、 存 储 器 、 | 软件 ， 

可 编程 逻辑 块 以 及 基本 门 电路 。 

想 要 利用 库 和 逻辑 综合 获得 可 接受 的 结果 ， 需 要 根据 最 终 的 综合 结果 和 期 望 的 输出 来 编 
写 规 范 。 对 于 简单 设计 来 说 ， 需 要 明确 的 是 期 望 用 组 合 逻 辑 还 是 时 序 罗 辑 来 实现 。 在 本 节 和 
附录 剩余 部 分 的 大 多 数 示例 中 ， 编 写 的 Verilog 都 考虑 了 最 终 的 综合 结果 。 


A.4.1 ”Verilog 中 的 数据 类 型 和 操作 


Verilog 有 两 种 基本 数据 类 型 : 

1. wire 定义 一 个 组 合 信号 。 

2. reg (寄存 器 ) 存储 一 个 数值 ， 数 值 可 随时 间 变 化 。 在 实现 时 ， 
reg 不 一 定 和 真实 的 寄存 器 相对 应 ， 但 通常 是 对 应 的 。 

64 位 宽 的 名 为 和 的 reg 或 wire 声明 为 一 个 数组 : reg [63: 0] | reg: 在 Verilog 中 ,表示 
X 或 wire [63 : 0] X， 将 索引 设置 为 0 以 指定 寄存 器 的 最 低 有 效 | 寄存 器 。 
位 。 由 于 经 常会 访问 寄存 器 或 线 的 子 域 ， 可 以 用 符号 [起 始 位 : 结 
束 位 ] 来 引用 reg 或 wire 的 一 段 连续 位 ， 起 始 位 和 结束 位 都 必须 是 常量 值 。 

寄存 器 数组 用 于 寄存 器 堆 或 存储 器 一 类 的 结构 。 因 此 ， 声 明 





Verilog : 最 常用 的 两 种 硬 
件 描述 语言 之 一 。 





VHDL : 最 常用 的 两 种 硬 
件 描 述 语言 之 一 。 





行为 规范 : 从 功能 上 描述 
数字 系统 的 操作 。 





Wire : 在 Verilog 中 ， 定 


义 一 个 组 合 信号 。 
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reg [63:0] registerfile[0:31] 


定义 了 类 似 于 RISC-V 寄存 器 堆 一 个 变量 寄存 器 堆 ， 其 中 寄存 器 0 是 第 一 个 寄存 器 。 和 C 语 
言 一 样 ， 在 访问 数组 时 ,使 用 符号 registerfile[regnum] 可 以 访问 单个 元 素 。 

Verilog 中 reg 或 wire 的 可 能 取 值 有 : 

e 0 或 1， 表 示 逮 辑 假 或 真 。 

e X， 表 示 未 知 ， 给 定 所 有 寄存 器 和 未 连接 线 的 初始 值 。 

e Z， 表 示 三 态 门 的 高 阻 态 ， 不 在 本 附录 讨论 。 

常量 值 可 以 指定 为 十 进 制 、 二 进 制 、 八 进 制 或 十 六 进 制 数 。 由 于 经 常 需要 确切 地 说 明 一 
个 常量 字段 的 位 数 ， 可 以 在 数值 前 加 上 十 进 制 数 来 指定 其 位 数 。 例 如 : 

e 4'b0100 表示 一 个 值 为 4 的 4 位 二 进 制 常量 ， 也 可 写作 4 'd4。 

e -8 'h4 表示 一 个 值 为 -4 (用 补 码 表示 ) 的 8 位 常量 。 

将 多 个 值 放 到 {} 中 ， 并 用 逗号 分 隔 ， 表 示 多 个 值 的 连接 。 符 号 {x {bitfield}} 表 
示 bitfield 重复 x 次 后 的 连接 值 。 例 如 : 

e {32{2”'b01}} 表示 创建 一 个 64 位 值 ， 模 式 是 0101…01。 

e {A[31:16],B[15:0]} 表示 创建 一 个 32 位 值 ， 由 A 的 高 16 位 和 B 的 低 16 位 连接 


而 成 。 
Verilog 提供 类 似 C 语言 的 整套 一 元 和 二 元 操作 符 , 包括: 算术 运算 符 (十 ，-，*，/)， 
逻辑 运算 符 (有 &，|，~ )， 比 较 运 算 符 (==，! =，>，<，<=，>=)， 移 位 运算 符 (<<, >>) 


以 及 C 语言 的 条 件 运 算 符 (? ， 使 用 格式 为 : condition?exprl:expr2， 如 果 条 件 为 真 
则 返回 expr1， 否 则 返回 expr2)。Verilog 增加 了 一 组 一 元 逻辑 运算 符 (& ，|，^)， 对 操作 
数 的 所 有 位 进行 相应 逻辑 运算 并 产生 一 位 结果 。 例 如 ，&A 返回 对 A 的 所 有 位 进行 与 运算 得 
到 的 一 位 结果 ，^A 返回 对 A 的 所 有 位 进行 异 或 得 到 的 一 位 结果 。 





We 


A.4.2 ”Verilog 程序 的 结构 


Verilog 程序 由 一 组 模块 构成 ， 模 块 可 以 表示 任何 内 容 ， 小 到 逻辑 门 集 合 ， 大 到 完整 系 
统 。 模 块 类 似 于 C++ 中 的 类 ， 只 是 没有 类 那么 强大 。 模 块 指定 其 输入 /输出 端口 ， 描 述 了 模 
块 传人 和 传 出 的 连接 。 模 块 还 可 以 声明 一 些 附 加 的 变量 。 模 块 的 主体 包括 : 

e initial 结构 ,初始 化 reg 变量 。 

e 连续 赋值 ， 仅 用 于 定义 组 合 逻 辑 。 

e al1ways 结构 ， 定 义 时 序 逻 辑 或 组 合 逻辑 。 

e 其 他 模块 实例 ， 用 于 定义 模块 的 实现 。 
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A.4.3 Verilog 复杂 组 合 逻 辑 的 表示 

关键 字 assign 定义 的 连续 赋值 类 似 于 组 合 逻 辑 函 数 : 输出 是 连续 赋 给 的 值 ， 输 入 值 的 
变化 会 立即 反映 到 输出 值 。wire 只 能 通过 连续 赋值 进行 赋值 。 使 用 连续 赋值 可 以 定义 一 个 实 
现 半 加 器 的 模块 ， 如 图 A-4-1 所 示 。 


module half_adder (A,B,Sum,Carry); 
input A,B; //two 1-bit inputs 
5 


assign 9um=AA^B; //sum is A xor B 
assign Carry = A & B; //Carry is A and B 
endmodule 


图 A-4-1 一 个 Verilog 块 ， 使 用 连续 赋值 定义 了 一 个 半 加 器 


编写 Verilog 时 ， 赋 值 语句 的 确 是 生成 组 合 逻 辑 的 一 种 方法 。 但 是 ， 对 于 更 复杂 的 结构 ， 
使 用 赋值 语句 可 能 很 笨拙 或 元 长 。 这 时 可 以 使 用 模块 的 always 块 来 描述 组 合 逻 辑 元 件 ， 但 
在 使 用 时 要 十 分 小 心 。 使 用 always 块 允 许 包 含 Verilog 控制 结构 ， 例 如 if-then-else 、case 
语句 、for 语句 和 repeat 语句 。 这 些 语 句 类 似 于 C 语句 ， 仅 有 较 小 变化 。 

always 块 定义 了 一 个 信号 可 选 列表 ， 这 些 信 号 对 于 语句 块 来 说 是 敏感 的 (列表 从 @ 开 
台 )。 如 果 列 表 中 任何 信号 值 发 生 改变 ，a1ways 块 都 会 更 新 ;如 果 省 略 列表 ， 则 always 
块 会 不 断 重新 计算 。 当 always 块 定义 组 合 逻 辑 时 ， 敏 感 列 表 SR 
( sensitively list) 应 该 包括 所 有 输入 信号 。 如 果 要 在 always 块 中 执 。 | 站 信访 和 名 六 和 
行 多 条 Verilog 语句 ， 要 把 它们 放 到 关键 字 begin 和 end 之 间 ， 相 | 新 计算 。 
当 于 C 中 的 “{” 和 “}”。 因 此 ，a1ways 块 应 该 如 下 所 示 : 


always @(1ist of signals that cause reevaluation) begin 
Verilog statements including assignments and other 
control statements end 


reg 变量 只 能 在 a1ways 块 中 用 过 程 赋值 语句 (区 别 于 前 面 的 连续 赋值 ) 进行 赋值 。 但 
有 两 种 不 同类 型 的 过 程 语 句 。 赋 值 运 算 符 = 的 执行 类 似 于 C ; 计算 等 号 右 侧 ， 并 赋值 给 左 
侧 。 此 外 ,还 和 C 语言 赋值 语句 的 执行 一 致 : 即 在 下 一 条 语句 执行 之 前 完成 本 条 指令 的 执 
行 。 因 此 ， 赋 值 运 算 符 = 称 作 阻 塞 赋 值 (blocking assignment)。 这 
种 阻塞 对 于 时 序 逻 辑 的 生成 很 有 用 ， 稍 后 再 做 讲解 。 另 一 种 赋值 形 
式 ( 非 阻 塞 ，nonblocking) 用 <= 表示。 在 非 阻 塞 赋值 中 ，a1ways 
块 所 有 赋值 语句 右 侧 同时 进行 运算 ， 且 赋值 也 都 同时 进行 。 作 为 使 
用 always 块 实现 的 第 一 个 组 合 逻 辑 示 例 ， 图 A-4-2 给 出 了 4 选 1 
多 选 器 的 实现 ， 使 用 了 case 结构 使 编写 更 加 容易 。case 构造 类 似 于 
C 语言 的 switch 语句。 图 A-4-3 给 出 了 RISC-V ALU 的 定义 ， 其 中 
也 使 用 了 case 语句 。 

由 于 在 always 块 中 只 有 reg 变量 可 以 被 赋值 ， 当 想 用 always 块 描述 组 合 逻 辑 时 ， 
必须 注意 ， 确 保 reg 不 会 被 合成 为 寄存 器 。 在 下 面 的 详细 阐述 中 给 出 了 各 种 陷阱 。 

详细 阐述 ”连续 赋值 语句 总 能 生成 组 合 软 辑 ， 但 是 其 他 Verilog 结构 即使 在 always 块 
中 ， 也 可 能 在 逻辑 合成 时 产生 意 想 不 到 的 结果 。 最 常见 的 问题 是 : 使 用 现成 的 锁 存 器 或 寄存 
器 来 建立 时 序 次 辑 时 ， 实 现 会 比 预期 更 慢 且 开销 更 大 。 为 了 确保 这 种 方式 能 合成 需要 的 组 合 





阻塞 赋值 : Verilog 中 的 赋 
值 语 句 ， 在 下 一 条 语句 执 
行 前 完成 。 





非 阻 塞 赋值 : 赋值 语句 ， 
右 侧 计算 持续 执行 ， 右 侧 
计算 完成 后 才 对 左 侧 赋值 。 
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逻辑 ， 需 要 执行 以 下 操作 : 
1. 将 所 有 组 合 逻 辑 置 于 连续 赋值 或 a1ways 块 中 。 
2. 确保 用 作 输 入 的 所 有 信号 都 出 现在 always 块 的 敏感 列表 中 。 
3. 确保 通过 always 块 的 每 条 通路 都 赋值 给 完全 相同 的 位 集合 。 
最 后 一 条 是 最 容易 忽视 的 ; 仔细 阅读 图 A-5-15 中 的 示例 ， 理 解 为 什么 要 坚持 这 条 准则 。 


module Mult4tol (Inl,In2,In3,In4,9el,0ut); 
inmput 【8320 Inl, In2, Ln3s TS A/four 64= DT TnButs 
input [1:0] Sel; //selector signal 
output reg [63:0] Out; //64-bit output 
always @(Inl, In2, In3, In4, Sel) 
case (Sel) //a 4->1 multiplexor 


Qe QuEt «= Thl 
1» 0 = TN2S 
Zs (QUE «= La 
default: Out 《= In4; 
endcase 
endmodule 





图 A-4-2 ”Verilog 模块 定义 ,使 用 case 语句 实现 的 带 有 64 位 输入 的 4 选 1 多 选 器 。case 语 
句 类 似 于 C 语 言 中 的 switch 语句 ， 不 过 只 执行 case 选中 的 Verilog 代码 (好 像 每 
个 case 状态 后 都 有 break 一 样 ) 且 不 会 执行 下 一 条 语句 


module RISCVALU (ALUct1, A, B, ALUOut, Zero); 
nput [B30 ALUWctl? 


input [63:0] A,B; 
output reg [63:0] ALUOut; 
output Zero; 


assign Zero = (ALUOut==0); //Zero is true if ALUOut is 0; goes anywhere 
always @(ALUct1，A，B) //reevaluate if these change 


case (ALUct1) 
ALUQUE <= WW 


0 
l: ALUQuE = A | Bs 
2: ALUOut <= 大 十 B; 
6: ALUQut <= A - B:; 
7 ALUBUE X= A B22 Lr0; 
Tes ALUQUE = (A& | By HY wesult Ts Wor 
default: ALUOut “= 0; //default to 0, should not happen; 
endcase 
endmodule 





图 A-4-3 ”RISC-V ALU 的 Verilog 行为 定义 。 可 以 使 用 包含 基本 算术 逻辑 运算 的 模块 库 进 行 
合成 
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A.5 ”构建 基本 算术 逻辑 单元 


算术 逻辑 单元 (Arithmetic Logical Unit，ALU) 是 计算 机 的 主要 组 ”| 算 示 逻辑 单元 (Arthritic 
成 部 分 ， 执 行 加 / 减 等 算术 运算 或 者 与 /或 等 逻辑 运算 。 本 节 用 四 种 “| Logic Unit 或 者 Arithmetic 
硬件 单元 (与 门 、 或 门 、 反 相 器 、 多 选 器 ) 构建 ALU， 并 说 明 组 合 逻 人 
辑 是 如 何 工 作 的 。 下 一 节 将 介绍 如 何 通 过 更 好 的 设计 来 加 速 加 法 器 。 和 效 的 标准 部件 。 

由 于 RISC-V 寄存 器 为 64 位 宽 ， 因 此 需要 一 个 64 位 宽 的 ALU。 | son Ke/0-Boone, The Devits 
假设 用 64 个 1 位 ALU 连接 构造 所 需 ALU。 因 此 ， 首 先 构 建 一 个 1 1 人 2 aanam 4 


位 ALU。 


A.5.1 1 位 ALU 


逻辑 操作 是 最 简单 的 ， 因 为 它们 直接 映射 到 图 A-2-1 中 的 硬件 组 件 。 

图 A-5-1 给 出 了 1 位 与 、 或 逻辑 单元 。 右 侧 的 多 选 嚣 根据 操作 取 值 为 0 或 1， 选 择 4a 与 
b 或 者 a 或 b。 多 选 器 的 控制 线 用 灰色 表示 ， 以 区 别 于 数据 线 。 注 意 : 多 选 器 的 控制 和 输出 
线 进行 了 重 命名 ， 通 过 名 称 来 反映 ALU 的 功能 。 


Operation 


0 
1 
图 A-5-1 与 和 或 的 1 位 逻辑 单元 
需要 包含 的 下 一 个 功能 是 加 法 。 加 法 器 必须 有 两 个 操作 数 输入 以 及 一 位 和 输出 ， 还 必须 
有 第 二 个 输出 用 来 传递 进位 ， 称 为 进位 输出 〈CarryOut)。 由 于 来 自 相 邻 加 法 器 的 进位 输出 需 
要 作为 输入 ， 因 此 加 法 器 需要 第 三 个 输入 ， 称 为 进位 输入 ( CarryIn)。 图 A-5-2 展示 了 1 位 


加 法 器 的 输入 和 输出 。 由 于 已 知 加 法 的 作用 ， 因 此 可 以 根据 输入 指定 这 个 “ 黑 盒 ”的 输出 ， 
如 图 A-5-3 所 示 。 


Result 





Carryln 





CarryOut 


图 A-5-2 1 位 加 法 器 。 该 加 法 器 称 为 全 加 器 ， 也 称 为 (3,2 ) 加 法 器 ， 因 为 它 含有 3 个 输入 
和 2 个 输出 。 只 含有 a 和 bb 两 个 输入 的 加 法 器 称 为 (2,2 ) 加 法 器 或 半 加 器 
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| 
3 
0 0 0 0 0 0+0+0=00; 
0 0 1 0 1 0+0+14=01. 
0 站 0 0 sl 0+1+0=01, 
0 和 攻 1 0 0+1+1=10， 
1 0 0 0 ll 11+0+0=01, 
1 0 于 4 | 0 1+0+1=10, 
u 二 0 4 0 1+1+0=10， 
和 和 1 和 1 于 泊 宪 入 三 自作 


























图 A-5-3 ”1 位 加 法 器 的 输入 和 输出 定义 


可 以 用 逻辑 方程 来 表示 进位 输出 与 和 的 输出 函数 ， 这 些 方程 式 又 可 以 用 逻辑 门 实现 。 以 
进位 输出 为 例 ， 图 A-5-4 给 出 了 进位 输出 为 1 时 的 输入 值 。 














RP 
0 J L 
1 0 1 
4 二 0 
a 二 1 

















图 A-5-4 ” 当 进 位 输出 为 1 时 输入 的 值 
可 以 把 真 值 表 转化 为 逻辑 方程 式 : 
CarrryOut =( b. CarryIn )+( a: CarryIn )+( a:b)+( a:b:CarryIn ) 
如 果 a* b， CarryIn 为 真 ， 那么 其 余 三 项 也 必须 为 真 ， 可 以 根据 真 值 表 第 四 行将 最 后 一 
项 省 略 掉 。 因 此 ， 方 程式 可 以 简化 为 : 
CarrryOut =( b :CarryIn )+( a:CarryIn )+( a:b) 
图 A-5-5 给 出 了 加 法 器 黑 盒 内 进位 输出 的 硬件 ， 由 三 个 与 门 和 一 个 或 门 组 成 。 三 个 与 门 
完全 对 应 上 面 进位 输出 公式 的 三 个 带 括 号 的 项 ， 或 门 对 这 三 项 求 和 。 


当 仅 有 一 个 输入 为 1 或 者 三 个 输入 都 为 1 时 ， 和 位 被 置 位 。 和 由 复数 布尔 方程 (a 表示 
非 a) 产生 : 


Sum =( a:b:CarryIn)+(a:b.:CarryIn)+(a:b:CarryIn )+( a:b.CarryIn ) 
加 法 器 黑 盒 中 和 位 的 逻辑 绘制 留 作 练习 。 
图 A-5-6 给 出 了 1 位 ALU， 由 加 法 器 与 先前 的 组 件 组 合 而 成 。 有 时 设计 人 员 还 硕 望 
ALU 执行 一 些 更 简单 的 操作 ， 例 如 生成 0。 增 加 操作 最 简单 的 方法 就 是 扩展 由 操作 线 控制 的 
多 选 器 ， 对 于 这 个 例子 ,将 0 直接 连接 到 扩展 后 的 多 选 器 的 新 输入 端 。 
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Carryln Operation 
Carryln 


Result 





b 
CarryOut CarryOut 
A-5-5 进位 输出 信号 的 加 法 器 硬件 。 加 法 器 硬件 的 图 A-5-6 ”实现 与 、 或 、 加 的 1 位 ALU 
剩余 部 分 是 下 式 中 和 (Sum) 的 输出 逻辑 ( 见 图 A-5-5 ) 


A.5.2 64 位 ALU 


现在 已 经 完成 了 1 位 ALU， 通过 连接 相 邻 的 “ 黑 盒 ”来 创建 完整 的 64 位 ALU。 使 用 
Xi 表示 x 的 第 i 位 ,图 A-5-7 给 出 了 64 位 ALU。 正 如 一 颗 石 子 就 能 使 平静 的 湖面 激 起 阵 
阵 涟 满 ， 最 低 有 效 位 ( Result0 ) 的 一 个 进位 就 能 导致 进位 扩展 到 加 法 器 ， 致 使 最 高 有 效 位 
( Result63 ) 产生 进位 。 因 此 ， 直 接连 接 1 位 进位 加 法 器 构成 的 加 法 器 称 为 行 波 进位 加 法 屁 。 
从 A.6 节 开始 ， 我 们 将 看 到 一 种 更 快 连接 1 位 加 法 器 的 方法 。 


Operation 


Carryln 












Carryln 
ALUO 
CarryOut 


Result0 


Carryln 
ALU1 
CarryOut 


Result1 






a2 Carryln 
b2 ALU2 Result2 
CarryOut 





a6 Carryln 
ALU63 Result63 
b6 


图 A-5-7 64 个 1 位 ALU 构成 的 64 位 ALU。 最 低 有 效 位 的 进位 输出 连接 到 最 高 有 效 位 的 
进位 输入 。 这 种 组 织 形 式 叫 作 行 波 进位 
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减法 相当 于 加 一 个 操作 数 的 负数 ， 这 正 是 加 法 器 执行 减法 的 方式 。 回 想 一 下 ， 二 进 制 补 
码 取 负 的 快捷 方式 是 每 位 取 反 (有 时 称 为 补 码 ) 再 加 1。 要 对 每 一 位 取 反 ， 只 需 添加 一 个 2:1 
多 选 器 , 在 2 和 2 之 间 选 择 ， 如 图 A-5-8 所 示 。 


Binvert Operation 
Carryln 





CarryOut 


图 A-5-8 一 个 执行 与 、 或 、a+b 或 者 atb 加 法 的 1 位 ALU。 通 过 选择 bp (Binvert=1 ) 以 及 
将 最 低 有 效 位 的 进位 输入 设置 为 1， 可 以 得 到 a-b 的 补 码 而 不 是 a+b 


假设 连接 64 个 1 位 ALU， 如 图 A-5-7 所 示 。 添 加 的 多 选 器 选 出 b 或 其 取 反 值 ， 具体 取 
决 于 Binvert， 但 这 只 是 求 二 进 制 补 码 的 第 一 步 。 注 意 : 最 低 有 效 位 仍然 具有 进位 输入 信和 号 ， 
即使 对 于 加 法 无 关 紧 要 。 如 果 将 此 进位 输入 信号 设置 为 1 而 不 是 0， 会 发 生 什么 ? 此 时 加 法 
器 会 计算 ge + +1。 通过 选择 b 的 取 反 ， 
就 能 得 到 想 要 的 结果 : 

a+bt+l=a+(b+l)=a+(-b)=a=b 

二 进 制 补 码 加 法 器 硬件 设计 的 简单 
性 有 助 于 解释 为 什么 二 进 制 补 码 表示 已 成 
为 整数 计算 机 算术 的 通用 标准 。 

还 需要 添加 或 非 (NOR ) 功能 。 和 减 
法 一 样 ， 或 非 也 可 以 通过 重用 ALU 中 已 
有 的 大 部 分 硬件 来 实现 ， 而 不 是 增加 单独 
的 或 非 门 。 或 非 可 以 转化 为 : 


Ainvert Operation 








(a+b)=a:b 
也 就 是 说 , (a 或 5) 的 非 等 价 于 非 a 与 非 
b。 这 也 被 称 为 德 摩根 定律 ， 在 练习 中 对 CarryOut 
此 进行 了 更 深入 的 探讨 。 图 A-5-9 一 个 实现 与 、 或、atb 或 者 atb 加 法 的 1 
由 于 有 与 和 非 b»， 只 需要 在 ALU 中 位 ALU。 通 过 选择 a (Ainvert=1 ) 和 
增加 非 a 既 可 。 图 A-5-9 给 出 了 变化 后 的 (Binvert=1 )， 可 以 得 到 a 异 或 ,而 不 


结构 。 是 a 与 6 
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A.5.3 ”修改 64 位 ALU 以 适应 RISC-V 


几乎 所 有 计算 机 的 ALU 都 包括 加 、 减 、 与 、 或 四 种 操作 ， 且 大 多 数 RISC-V 指令 操作 
都 可 以 用 这 个 ALU 实现 。 但 是 这 个 ALU 的 设计 还 不 完整 。 

还 需 支 持 的 一 条 指令 是 小 于 置 位 指令 (s1t)。 如 果 rsl < rs2， 则 操作 产生 1， 和 否则 返回 
0。 因 此 ，s1t 会 将 除 最 低 有 效 位 之 外 的 所 有 位 都 置 为 0， 并 根据 比较 结果 设置 最 低 有 效 位 。 
为 了 让 ALU 执行 s1t 指令， 首先 需要 扩展 图 A-5-9 中 的 三 输入 多 选 器 ， 为 s1t 结果 添加 一 
个 输入 ， 称 这 个 新 输入 为 Less， 仅 用 于 s1t。 

图 A-5-10 的 上 图 给 出 了 带 有 扩展 多 选 器 的 新 1 位 ALU。 根 据 以 上 的 S1t 描述 ， 必 须 将 
0 连接 到 ALU 高 63 位 的 Less 输入 ， 因 为 这 些 位 总 是 置 0。 还 需要 考虑 的 是 如 何 比较 和 设置 
s1t 指令 的 最 低 有 效 位 。 

如 果 a-b 会 发 生 什么 ?如果 结 果 为 负 ， 那 么 a < bp， 因 为 

(a—-b)<0((a-hD)+b)<(0+b)=>a<b 


如 果 a < 5， 小 于 置 位 操作 的 最 低 有 效 位 置 1 ; 也 就 是 说 ， 如 果 a-b 为 负 ， 则 最 低 有 效 
位 为 1 ; 如 果 为 正 ， 则 为 0。 需 要 的 结果 与 符号 位 值 完 全 对 应 : 1 表示 负 ，0 表示 正 。 根 据 这 
个 结果 ， 只 需 将 加 法 器 输出 的 符号 位 连接 到 最 低 有 效 位 就 可 以 实现 小 于 置 位 比较 。( 可 惜 ， 这 
个 结果 只 在 减法 无 溢出 时 有 效 ; 在 练习 中 将 讨论 其 完整 实现 。) 

不 幸 的 是 ， 图 A-5-10 的 上 图 中 ，s 1t 操作 的 来 自 ALU 最 高 有 效 位 的 输出 结果 并 不 是 加 
法 器 的 输出 ，s1t 操作 的 ALU 输出 显然 是 Less 的 输入 值 。 

因此 ， 对 于 有 额外 输出 位 的 最 高 有 效 位 ， 需 要 一 个 新 的 1 位 ALU : 加 法 器 的 输出 。 
图 A-5-10 的 下 图 给 出 了 这 个 设计 ， 新 的 加 法 器 输出 线 称 为 Set。 最 高 有 效 位 只 需要 一 个 特殊 
的 ALU， 仅 增加 溢出 检测 逻辑 ， 因 为 它 与 该 位 是 关联 的 。 图 A-5-11 给 出 了 64 位 ALU。 


Ainvert Operation 
Binvert Carryln 








Result 


CarryOut 


图 A-5-10 (上 图 ) 实现 与 、 或 、atb 或 者 atb 加 法 的 1 位 ALU ; (下 图 ) 带 有 最 高 有 效 位 的 
1 位 ALU。 上 图 包含 一 个 实现 小 于 比较 置 位 操作 的 直接 输入 ( 见 图 A-5-11 ); 下 
图 有 一 个 实现 小 于 比较 的 来 自 加 法 器 的 直接 输出 ， 称 为 set ( 见 附录 末 练习 A.24， 
了 解 如 何 用 更 少 的 输入 计算 溢出 ) 


图 A-5-11 


Ainvert 
Binvert 
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Uperation 
Carryln 





图 A-5-10 ( 续 ) 


Binvert 
Ainvert 


Carryln 
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Carryln 
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Result1 


Result2 


Result63 


Overflow 
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63 个 图 A-5-10 上 部 所 示 的 1 位 ALU 和 1 个 下 部 所 示 的 1 位 ALU 构成 的 64 
位 ALU。 除 最 低 有 效 位 ，Less 输入 均 连 接 到 0， 最 低 有 效 位 连接 到 最 高 有 效 位 
的 Set 输出 。 如 果 ALU 执行 a-b 且 图 A-5-10 中 的 多 选 器 选择 输入 3， 则 如 果 
a 二 b，Resutl= 0 .… 001， 否则 Resutl= 0 .… 000 
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注意 ， 每 次 使 用 ALU 做 减法 时 ， 要 将 CarryIn 和 Binvert 都 设置 为 1。 对 于 加 法 或 逻辑 
运算 ， 两 条 控制 线 都 置 0。 因 此 ， 通过 将 CarryIn 和 Binvert 合成 一 条 控制 线 Bnegate， 可 以 
简化 ALU 的 控制 。 

为 了 进一步 定制 ALU 以 适应 RISC-V 指令 系统 ， 还 必须 支持 条 件 分 支 指令 ， 如 相等 则 
分 支 (beq)， 即 如 果 两 个 寄存 器 相等 则 分 支 。 使 用 ALU 进行 相等 测试 的 最 简单 方法 是 计算 
4a-b， 然 后 查看 结果 是 否 为 0， 因为 


(a-=b=0)Sa=b 


因此 ， 如 果 添 加 硬件 以 测试 结果 是 否 为 0， 就 可 以 测试 是 否 相 等 。 最 简单 的 方法 是 将 所 
有 输出 组 合 取 或 ， 然 后 通过 反 相 器 发 送 该 信号 : 

Zero =( Result63 + Result62+...+ Result2+ Resultl+ Result0) 

图 A-5-12 给 出 了 修改 后 的 64 位 ALU。 可 以 将 1 位 Ainvert 线 、1 位 Bnegate 线 和 2 位 
操作 线 组 合 为 ALU 的 4 位 控制 线 ， 控 制 执行 加 、 减 、 与 、 或 、 异 或 、 小 于 置 位 。 图 A-5-13 
给 出 了 ALU 控制 线 和 相应 的 ALU 操作 。 

最 后 ， 既 然 已 经 看 到 了 64 位 ALU 的 内 部 结构 ， 之 后 将 使 用 通用 符号 表示 完整 的 ALU， 
如 图 A-5-14 所 示 。 


Bnegate Operation 















CarryOut Zero 
ALU2 
Less 
CarryOut 
; CarryIn 
Result63 
Overflow 


图 A-5-12 ”最终 的 ALU。 在 图 A-5-11 的 基础 上 增加 0 检测 器 
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ALU 控制 线 功能 
































0000 与 
0001 或 
0010 加 
0110 | 碱 
0111 小 于 比较 置 位 
1100 或 非 
图 A-5-13 三 条 ALU 控制 线 ( Ainvert 线 、Bnegate 线 、Operation 线 ) 的 值 ， 以 及 相应 的 


ALU 操作 


ALU operation 


a 
Zero 
Result 
Overflow 
b 


CarryOut 


图 A-5-14 通常 用 来 表示 图 A-5-12 所 示 的 ALU 符号 。 这 个 符号 也 用 来 表示 加 法 器 ， 因 此 
通常 使 用 ALU 或 Adder 标记 


A.5.4 用 Verilog 定义 RISC-V ALU 

图 A-5-15 给 出 了 如何 使 用 Verilog 定义 组 合 RISC-V ALU。 这 样 的 规范 可 能 会 使 用 提供 
加 法 器 的 标准 零件 库 进 行 编译 ， 可 以 实例 化 。 为 了 完整 起 见 ， 图 A-5-16 给 出 了 RISC-V ALU 
的 控制 (在 第 4 章 中 使 用 过 )， 其 中 构建 了 Verilog 版 的 RISC-V 数据 通路 。 


module RISCVALU (ALUct1, A, B, ALUOut, Zero); 
mput CS ALVetls 
imput [630] WaBs 
output reg [63:0] ALUOut; 
output Zero; 
assign Zero = (ALUOut==0); //Zero is true if ALUOut is 0 
always @(ALUct1，A，B) begin //reevaluate if these change 
case (ALUct1) 
: ALUOut 


: ALUOUt 
: ALUOUt 
: ALUOut 


Ai va AAA 
mt ii 

1 二 一 名 
中 中 中 中 中 


亡 记 工 记 工 


个 


: ALUOut 2 
l2: ALUOUt. = -~{A, | BY Wt Pesult Ts nor 
default: ALUOut <= 0; 
endcase 
end 
endmodule 








图 A-5-15 ”RISC-V ALU 的 Verilog 行为 定义 
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module ALUControl (ALUOp, FuncCode, ALUCt]); 
input [1:0] ALUQOp:; 
input [5:0] FuncCode; 
output [3:0] reg' ALUCtI;S 


always case (FuncCode) 


32: ALUOp<=2; // add 
34: ALUOp<=6; // subtract 
6s ALYUOP=0 /AY dd 
7 ALUOpR=T: 7 OF 
95 EU 
2 ALUOBX=Ys /7 §lEt 
default: ALUOp<=15; // should not happen 
endcase 
endmodule 


图 A-5-16 ”RISC-V ALU 控制 : 一 个 简单 的 组 合 控制 逻辑 





















下 一 个 问题 是 ， 这 个 ALU 进行 两 个 64 位 操作 数 的 加 法 运算 能 有 多 快 ? 可 以 确定 a 和 4b 
的 输入 ,但 CarryIn 输入 取决 于 相 邻 1 位 加 法 器 的 操作 。 如 果 跟 踪 整 个 依赖 关系 链 ， 将 最 高 
有 效 位 连接 到 最 低 有 效 位 ， 因 此 和 的 最 高 有 效 位 必须 等 待 64 个 1 位 加 法 器 顺序 求 值 (后 才 
能 得 到 )。 这 种 顺序 链 式 反应 太 慢 ， 无 法 用 于 时 序 要 求 严 格 的 硬件 。 下 一 节 将 探讨 如 何 加 速 
加 法 。 这 个 主题 对 于 理解 附录 的 其 余部 分 不 是 至 关 重要 的 ， 可 以 跳 过 。 








A.6 快速 加 法 : 超前 进位 
加 速 加 法 的 关键 是 提高 高 阶 进 位 的 速度 。 有 多 种 方案 可 以 预测 进位 ， 因 此 最 坏 的 情况 是 
加 法 器 位 数 的 log: 函数 。 这 些 预测 信号 更 快 ， 因 为 它们 按 顺 序 通 过 更 少 的 门 ， 但 需要 更 多 的 
门 来 预测 正确 的 进位 。 
理解 快速 进位 的 关键 是 要 记 住 : 与 软件 不 同 ， 无论 输 入 何 时 改变 ， 硬 件 都 会 并 行 执行 。 
A.6.1 使 用 “无 限 ” 硬 件 的 快速 进位 
正如 前 面 提 到 的 ， 任 何等 式 都 可 以 表示 成 两 级 逻辑 。 由 于 仅 有 的 外 部 输入 是 两 个 操作 
数 ， 以 及 加 法 器 最 低 有 效 位 的 进位 输入 ， 理 论 上 可 以 仅 用 两 级 逻辑 计算 加 法 器 所 有 剩余 位 的 
进位 输入 值 。 
例如 ， 加 法 器 的 第 2 位 的 进位 输入 恰好 是 第 1 位 的 进位 输出 ， 因 此 公式 为 
CarryIn2 =(b1，CarryInl )+(al .+ CarryInl )+(al : bl) 
类 似 地 ，CarryInl 定义 为 
CarryInl =(b0， CarryIn0 )+(a0 . CarryIn0 )+(a0 . b0) 
用 ci 代替 CarryIni， 将 以 上 公式 重 写 为 
c=(b1 "el)4(al cl)+(al: bl) 
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cl=(b0: c0)+(a0: c0)+(a0: b0) 
把 cl 代入 c2， 可 得 
c2=(al.a0.b0)+(al.a0.c0o)+(al.b0'.c0) 
+ (bl .a0.b0)+(bl.a0.c0)+(bl.b0.c0)+(al'. bl) 
可 以 想象 一 下 ， 加 法 器 得 到 更 高 的 位 时 方程 会 如 何 扩大 一 一 它 会 随 着 位 数 的 增高 迅速 增 
长 。 这 种 复杂 性 反映 在 快速 进位 的 硬件 开销 上 ， 使 得 这 种 简单 机 制 对 于 扩展 宽 加 法 器 来 说 过 
于 昂贵 。 
A.6.2 ”使 用 第 一 级 抽象 的 快速 进位 : 传播 和 生成 
大 多 数 快速 进位 机 制 限制 了 方程 式 的 复杂 性 以 简化 硬件 ， 同 时 获得 比 行 波 进位 更 大 的 速 
度 提 升 。 其 中 一 种 机 制 就 是 超前 进位 加 法 器 ( carry-lookahead adder)。 在 第 1 章 中 ,介绍 了 
计算 机 系统 通过 使 用 抽象 层次 来 应 对 复杂 性 。 超 前 进位 加 法 器 依赖 于 其 实现 中 的 抽象 层次 。 
将 原 方程 式 作 为 第 一 步 因 子 : 
carl= (bi ci)+(ai' ci)+(ai bi)=(ai* bi)+(ai* bi)*ei 
如 果 用 这 个 公示 重 写 c2 方程 式 ， 会 看 到 一 些 重复 的 部 分 : 
c2=(al * bl )+(al * bl ):((a0: b0)+(a0+b0).c0) 
注意 上 式 中 重复 出 现 了 了 (ai: bi) 和 (ai + bi)。 这 两 个 重要 的 因子 通常 称 为 (进位 ) 生成 
(generate (gi)) 和 (进位 ) 传播 (propagate (pi) ): 
gi=ai*bi 
pi=ai+t+bi 
用 它们 来 定义 cr， 可 以 得 到 : 
必定 人 
为 了 理解 信号 是 从 哪里 来 的 ,假设 gi 位 1。 则 
Cai=g tpi*ci=1+pi* ci=]1 
也 就 是 说 ， 加 法 器 生成 一 个 进位 输出 (ci ) 独立 于 进位 输入 的 值 (ci)。 现 假设 gi 为 0 且 pi 
为 1。 则 
Ca = +p ol=0+ 1 er=0t 
也 就 是 说 ， 加 法 器 把 进位 输入 传播 给 进位 输出 。 将 两 者 合 在 一 起 ， 如 果 gi 为 1 或 者 pi 和 
CarryIni 均 为 1， 则 CarryInin41 为 1。 
作 一 个 类 比 ， 想 象 一 排 多 米 诺 骨 有 牌 。 只 要 两 两 之 间 没 有 间隙 ， 推 倒 远 处 的 一 块 多 米 诺 牌 
可 以 让 最 后 一 块 多 米 诺 牌 也 倒 下 。 类 似 地 ， 一 个 远 处 的 (进位 ) 生成 也 可 以 使 当前 的 进位 输 
出 为 真 ， 只 要 它们 之 间 的 所 有 (进位) 传播 都 为 真 。 
根据 传播 和 生成 的 定义 ,将 其 作为 第 一 级 抽象 ， 可 以 更 简洁 地 表示 进位 输入 信号 。4 位 
进位 如 下 : 
cl=g0+(p0* c0) 
c2=gl+(pl . g0)+(pl * pO0* c0) 
c3=82+(p2" gl)t(p2* 1 * g0 +(p2 < pl “pO. ce0) 
c4=g3+(p3* g2)+(p3* p2: gl )+(p3* p2* pl * g0) 
F(p3*p2 < pl* pO0*e0) 
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这 些 方程 仅 表示 一 般 形 式 : 如 果 某 个 前 面 的 加 法 器 生成 进位 且 所 有 中 间 的 加 法 器 都 传播 
进位 ， 则 CarryIni 为 1。 图 A-6-1 使 用 管道 来 解释 超前 进位 。 





图 A-6-1 管道 系统 类 比 ， 使 用 水 管 和 阀门 类 比 1 位 、2 位 和 4 位 超前 进位 。 转 动 扳手 打开 
和 关闭 阀门 。 水 用 灰色 标 出 。 如 果 最 近 的 〈 进 位) 生成 值 (gi) 打开 ,或 者 第 i 个 
(进位 ) 传播 值 (pi) 打开 且 上 游 有 水 ， 或 者 有 先前 的 〈 进 位 ) 生成 或 后 面 (进位 ) 
传播 来 的 水 ， 则 管道 (ci,, ) 的 输出 将 是 满 的 。 进 位 输入 (c0 ) 可 以 导致 进位 ， 即 
使 没有 任何 (进位) 生成 的 帮助 ， 但 是 需要 所 有 (进位 ) 传播 的 帮助 
即使 是 这 种 简化 形式 也 会 产生 长 长 的 方程 式 ， 因 此 即使 是 16 位 加 法 器 也 是 如 此 。 接 下 
来 尝试 使 用 两 级 抽象 。 


A.6.3 ”使 用 第 二 级 抽象 的 快速 进位 

首先 ， 将 这 个 4 位 加 法 器 与 其 超前 进位 逻辑 视 为 单个 构建 块 。 如 果 用 行 波 进位 机 制 将 其 
连接 得 到 一 个 16 位 加 法 器 ， 只 需要 增加 少量 硬件 ， 就 可 以 使 加 法 操作 比 原 来 更 快 。 

为 了 更 快 ， 超 前 进位 需要 在 更 高 层次 上 进行 。 为 了 实现 4 位 加 法 器 的 超前 进位 ， 传 播 和 
生成 信号 也 需要 在 这 个 更 高 层次 上 进行 。 以 下 是 四 个 4 位 加 法 器 块 : 
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P0=p3 . 


Pl=p7 


p2°: pl:p0 


“p66: p55: p4 


P2=pll* pl0™p9* pS 
P3=pl5 "pl4* pl3°: p12 
也 就 是 说 ， 只 有 当 这 一 组 中 每 一 位 都 传播 进位 时 ， 用 于 4 位 抽象 (Pi) 的 “超级 ”传播 信号 


(Pi) 才 为 真 。 


对 于 “超级 ”生成 信号 (Gi)， 只 关心 4 位 组 的 最 高 有 效 位 是 否 有 进位 。 如 果 最 高 有 效 位 
的 (进位 ) 生成 为 真 ， 则 上 述 情况 显然 会 发 生 ; 如 果 之 前 的 (进位 ) 生成 为 真 且 所 有 中 间 传 
播 (包括 最 高 有 效 位 的 传播 ) 也 都 为 真 ， 上 述 情况 也 会 发 生 : 


G0=g3+(p3*' g2)+(p3:* p2 


G2=gll+(pll* g10)+(pll 
G3=g1l5+(pl5* g14)+(p15 


"BL LT p2” pl a0) 
Gl=g7+(p7': g6)+(p7* p6: 


g5 )+(p7.p6.p5 .84) 


“pl10. g9)+(pll * pl10.p9…g8) 
“ pl4 : g13 )+(pl15 : pl4 .pl13 .gl12) 


图 A-6-2 更 新 了 管道 类 比 ， 以 描述 PO 和 G0。 





图 A-6-2 管道 系统 类 比 下 一 级 超前 进位 信号 PO 和 G0。 如 果 4 个 (进位 ) 传播 (pi) 打开 ， 
则 P0 打开 ， 仅 当 至 少 1 个 (进位 ) 生成 (gi) 打开 且 下 游 所 有 (进位) 传播 都 打 


开 ，G0 才 有 水 流 


WR 


对 于 16 位 加 法 器 的 每 个 4 位 组 (图 A-6-3 中 的 C1、C2、C3 、C4 ) 的 进位 ， 这 个 更 高 抽 
象 层次 的 方程 式 类 似 于 上 述 4 位 加 法 器 每 一 位 (c1、c2 、c3 、c4 ) 的 进位 方程 式 : 


Cl= G0+(PO0. c0) 


C=GL+(Pl* G0)+ (Pl :PO 
C3=G2+(P2 G1 TP Pl 


C4=G3+(P3. G2)+(P3: P2 
"PO:c0) 


于 (PS = 了 了 27 Pl 


Carryln 






C1 


Carryln 


CarryOut 


图 A-6-3 4 个 4 位 超前 进位 ALU 组 成 的 1 个 16 位 加 法 器 。 注 意 进位 来 源 于 超前 进位 单元 ， 
而 不 是 4 位 ALU 


sw | 


c0 ) 


“0 +F(P2 < PL * PO C0.) 
“G1 FP3* P22 * Pl*G0) 


Result0-3 











Ci+1 


Carry-lookahead unit 


Result4-—7 





Result8—11 





Result12--15 
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| 例题 | 两 级 传播 和 生成 
确定 两 个 16 位 数 的 gij、pi、Pi 和 Gi 值 : 


a: 0001 1010 0011 0011; 
bs L110 QL10l 110 Lolls 


CarryOut15 (C4 ) 的 值 是 什么 ? 
| 答案 | 位 对 齐 以 便 看 出 〈 进 位 ) 生成 值 gi (ai . bi) 和 (进位 ) 传播 值 (ai+bi): 


a 0001 1010 0011 0011 
b: lO LO 110 L011 
gs 0000 0000 0010 0011 
jy TT TL LIll 0 


从 左 到 右 依次 标记 为 15 ~ 0,“ 超 级 ”( 进 位 ) 传播 (P3、P2、P1、P0 ) 是 低级 (进位 ) 传播 
的 简单 相 与 。 
PpP3=1*| 
PpP2=1* | 
PI 二 
PO=1»0 
“超级 ” (进位 ) 生成 更 复杂 ， 因 为 使 用 以 下 等 式 : 
G0=83+(p3 .8g2)+(p3.p2 .gl)+(p3.p2. pl * g0) 
=0+(1.0)+(1.0.1)+(1.0.1"1)=0+0+0+0=0 
G1=8g7+(p7 .8g6)+(p7.p6. 85)+(p7.p6.p5 .84) 
=0+(1.0)+(1.1.1)+(1.1.1"0)=0+0+1+0=1 
G2=gll1+(pll .gl0)+(pl1 .pl0.g9)+(pl1.pl0.p9.8g8) 
二 人 下 人 1 二 0 下 (下 交工) 0 二 00OFOs0 
G3=g15+(pl5: g14)+(pl5. pl4: 8g13 )+(p15. pl4 * p13 .8g12) 
=0+(1.0)+(1.1.0)+(1.1.1.0)=0+0+0+0=0 
最 后 ，CarryOut15 (C4 ) 为 
C4=G3+(P3: G2)+(P3: P2: G1)+(P3: P2: Pl: G0) 
+(P3. P2.: Pl: PO.:c0) 
=0(000E(121 oT)E(LeL TO) lel 00) 
=0+0+1+0+0=1 
因此 ， 当 这 两 个 16 位 数 相 加 时 有 一 个 进位 输出 。 


超前 进位 之 所 以 进位 更 快 ， 是 因为 所 有 逻辑 在 时 钟 周期 开始 的 同时 开始 进行 计算 ， 且 一 
旦 每 个 门 的 输出 停止 变化 ， 结 果 也 不 再 改变 。 通 过 用 较 少 的 门 来 发 送 进位 信号 ， 门 的 输出 能 
更 快 地 停止 变化 ， 因 此 加 法 器 用 时 更 短 。 

为 了 理解 超前 进位 的 重要 性 ， 需 要 计算 它 与 行 波 进位 加 法 器 的 相对 性 能 。 


| 例题 | 行 波 进位 和 超前 进位 的 速度 比较 
为 逻辑 时 间 建 模 的 一 种 简单 方法 是 假设 信号 通过 每 个 与 门 、 或 门 时 花费 的 时 间 相 同 。 通 


一 -一 J -一 
5 
Ey 
ll 








432 奉 录 A 


过 简单 计算 通过 逻辑 通路 的 门 的 数量 来 估计 时 间 。 比 较 两 个 16 位 加 法 器 通路 的 门 延迟 数 ， 
一 个 使 用 行 波 进位 ， 另 一 个 使 用 两 级 超前 进位 。 
| 答案 | 图 A-5-5 展示 了 每 一 位 进位 输出 信号 需要 两 个 门 延迟 。 最 低 有 效 位 的 进位 输入 与 最 
高 有 效 位 进位 输出 之 间 的 门 延迟 数 是 32 x 2 = 64。 
对 于 超前 进位 ， 最 高 有 效 位 的 进位 输出 只 有 例题 中 定义 的 C4。 根 据 Pi 和 Gi ( 几 个 与 项 
的 或 ) 需要 两 级 逻辑 来 定义 C4。 用 pi 在 一 级 逻辑 (与 ) 中 定义 Pi, 且 用 pi 和 gi 在 两 个 逻辑 
层 中 指定 Gi， 因 此 下 一 级 抽象 的 最 坏 情况 也 就 两 级 逻辑 。pi 和 gi 都 是 用 ai 和 bi 定义 的 一 级 
逻辑 。 假 设 这 些 方程 式 中 每 级 逻辑 都 有 一 个 门 延 迟 ， 则 最 坏 情况 下 有 2+2+1=5 个 门 延 迟 。 
因此 ， 对 于 从 进位 输入 到 进位 输出 的 通路 ,使 用 这 种 简单 的 硬件 速度 估算 ( 门 延 迟 )，16 
位 加 法 超前 进位 的 速度 要 比 行 波 进 位 快 6 倍 。 


A.6.4 总 结 


超前 进位 提供 比 行 波 进位 更 快 的 通路 ， 不 需要 像 行 波 进位 那样 等 待 经 过 32 个 1 位 加 法 
器 的 进位 。 这 个 快速 通路 的 两 个 主要 信和 号 是 (进位 ) 生成 和 (进位) 传播 。 

前 者 是 不 考虑 进位 输入 的 进位 ， 后 者 传递 进位 。 超 前 进位 提供 了 另 一 个 示例 ， 即 抽象 对 
于 应 对 计算 机 设计 的 复杂 性 有 多 重要 。 

| 胰 锚 阅 通 | 除 一 个 算术 和 座 辑 操作 外 ， 现 在 已 经 包含 了 核心 RISC-V 指令 系统 中 的 所 有 
指令 : 图 A-5-14 中 的 ALU 忽略 了 对 移 位 指令 的 支持 。 可 以 加 宽 ALU 多 选 器 来 支持 左 移 1 
位 或 右 移 1 位 。 但 硬件 设计 者 设计 了 一 种 称 为 桶 式 移 位 器 (barrel shifter) 的 电路 ， 它 可 以 从 
1 位 移 到 63 位 ， 且 不 超过 两 个 64 位 数 相 加 的 时 间 ， 因 此 通常 在 ALU 外 部 进行 移 位 。 

| 哺 开 立 带 。8 通 过 使 用 比 与 门 、 或 门 更 强大 的 门 ， 可 以 更 简单 地 表示 A.5.1 节 全 加 器 和 的 
输出 逻辑 方程 式 。 当 两 个 操作 数 不 同 时 ， 蜡 或 门 为 真 ， 即 ， 

xz¥y1 Hf x=y=0 
在 某 些 技术 中 ， 异 或 比 两 级 与 门 、 或 门 更 高 效 。 用 符号 外表 示 异 或 ， 新 等 式 为 : 
Sum = a 由 由 CarryImn 

同时 ,我 们 使 用 门 这 种 传统 方式 来 绘制 ALU。 当 今 的 计算 机 设计 使 用 CMOS 晶体 管 作 
为 基本 开关 电路 。CMOS ALU 和 桶 式 移 位 器 利用 这 些 开关 的 优势 ， 比 我 们 的 设计 中 使 用 的 
多 选 器 少 得 多 ， 但 设计 原理 是 类 似 的 。 

圈 猎 羡 通 $ 当 使 用 超过 两 级 的 逻辑 层次 时 ， 使 用 大 小 写 来 区 分 (进位 ) 生成 和 (进位) 
传播 信号 的 层次 就 不 行 了 。 用 gi...j 和 pi...j 表示 从 第 i 位 到 第 j 位 的 生成 和 传播 信号 。 因 此 ， 
g1...1 表示 位 1 的 (进位 ) 生成 ，g4...1 表示 位 4 到 位 1 的 (进位 ) 生成 ，g16...1 表示 位 16 到 
位 1 的 (进位 ) 生成 。 
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A.7 ”时钟 

在 讨论 存储 元 件 和 时 序 逻 辑 之 前 ， 简 要 地 讨论 一 下 时 钟 是 十 分 
有 益 的 。 类 似 于 4.2 节 中 的 讨论 ， 本 节 介 绍 时 钟 的 相关 内 容 。 有 关 
时 钟 和 时 序 的 更 多 细节 ， 请 参见 A.11 节 。 

时 序 逻 辑 中 需要 时 钟 来 决定 何 时 更 新 存储 元 件 的 状态 。 时 钟 内 
是 一 个 具有 固定 周期 的 不 停 运 转 的 信号 ， 时 钟 频率 是 时 钟 周期 的 倒 
数 。 如 图 A-7-1 所 示 ， 时 钟 周期 时 间或 时 钟 周期 分 为 两 部 分 : 高 电 
平和 低 电 平 。 在 本 节 中 仅 采 用 边沿 触发 时 钟 的 同步 逻辑 。 这 意味 着 
所 有 状态 更 新 都 发 生 在 时 钟 边 沿 。 我 们 使 用 边缘 触发 的 方法 是 因为 它 更 容易 理解 。 但 从 工艺 
的 角度 来 讲 ， 很 难说 它 是 否 就 是 时 钟 同步 方法 的 最 佳 选择 。 


时 钟 周期 上 升 沿 
图 A-7-1 时钟 信 号 在 高 电 平 和 低 电 平 之 间 振 荡 。 时 钟 周期 是 一 个 完整 周期 的 时 间 。 在 边沿 
触发 设计 中 ,时钟 的 上 升 沿 或 下 降 沿 是 有 效 信号 并 导致 状态 发 生变 化 


在 边沿 触发 的 方法 中 ， 时 钟 的 上 升 沿 或 下 降 沿 是 有 效 信号 并 导 | 状态 单元 一 个 存储 元 件 。 
致 状态 发 生变 化 。 正 如 将 在 下 一 节 中 所 看 到 的 ， 边 缘 触发 设计 中 的 
状态 单元 的 改变 仅 发 生 在 有 效 时 钟 的 边沿 。 至 于 选择 哪个 时 钟 边沿 
作为 有 效 触发 信号 是 受 设计 技术 影响 的 ， 但 不 影响 设计 逻辑 所 涉及 | 局 训 素 统 ，_ 种 末 用 时 名 
的 概念 。 的 存储 系统 ， 只 有 当时 钟 

时 钟 边沿 用 作 采 样 信号 ， 使 得 输入 到 状态 单元 的 数据 值 被 采样 “| 指示 信号 值 稳定 时 才 读 取 
并 存储 在 状态 单元 中 。 使 用 边沿 触发 意味 着 采样 过 程 基 本 上 是 瞬时 | 数据 信号 。 

的 ， 消 除了 采样 信号 时 刻 不 同 可 能 引发 的 问题 。 

时 钟 系统 (也 称 为 同步 系统 ) 的 主要 约束 是 ， 当 有 效 时 钟 边沿 发 生 时 ， 写 人 状态 单元 的 
言 号 必须 有 效 。 如 果 信 和 号 稳定 〈 即 不 改变 )， 则 该 信号 有 效 ， 并 且 在 输入 改变 之 前 该 值 不 会 再 
次 改变 。 由 于 组 合 电路 无 法 实现 反馈 ， 只 要 组 合 逻 辑 单元 的 输入 不 变 ， 输 出 最 终 将 变 为 有 效 。 

图 A-7-2 显示 了 同步 时 序 逻 辑 设计 中 状态 单元 和 组 合 逻辑 结构 之 间 的 关系 。 状 态 单元 的 
输出 仅 在 时 钟 边沿 时 刻 改变 ， 该 输出 为 组 合 逻辑 提供 有 效 输入 。 为 确保 在 有 效 时 钟 边沿 写 人 
的 状态 单元 的 值 有 效 ， 时 钟 必须 具有 足够 长 的 周期 ， 从 而 让 组 合 逻 辑 中 的 所 有 信和 号 稳定 ， 然 
后 在 时 钟 边 沿 对 这 些 值 进行 采样 以 便 存储 在 状态 单元 。 这 个 约束 为 时 钟 周 期 设置 了 一 个 下 
限 ， 该 下 限 必 须 足 够 长 ， 从 而 保证 所 有 状态 单元 的 输入 有 效 。 


边沿 触发 时 钟 : 一 种 时 钟 
方案 ,其 中 所 有 状态 改变 
都 发 生 在 时 钟 边沿 。 





时 钟 同步 方法 : 根据 时 钟 
确定 数据 何 时 有 效 和 稳定 
的 方法 。 





状态 1 状态 
单元 1 ute 单元 2 


| 


图 A-7-2 ”组合 逻辑 的 输入 来 自 状 态 单元 ， 其 输出 也 被 写 到 一 个 状态 单元 。 时 钟 边沿 决定 何 
时 更 新 状态 单元 的 内 容 
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在 本 附录 的 其 余部 分 以 及 第 4 章 中 ， 通常 省 略 时 钟 信号 ， 因 为 我 们 假设 所 有 状态 单元 都 
在 同一 时 钟 边沿 上 更 新 。 某 些 状态 单 元 在 每 个 时 钟 边沿 写 入 ， 而 其 他 状态 单元 仅 在 某 些 条 件 
下 写 入 《例如 更 新 寄存 器 )。 在 这 种 情况 下 ,我 们 将 为 该 状态 单元 提供 显 式 写 信号 。 该 写 信 
号 必须 和 时 钟 同步 ， 确 保 在 写 信 号 有 效 时 ， 仅 在 时 钟 边沿 进行 更 新 。 我 们 将 在 下 一 他 中 看 到 
上 述 设计 是 如 何 实现 和 使 用 的 。 

边沿 触发 方法 的 另 一 个 优点 是 可 以 使 用 一 个 状态 单元 作为 同一 组 合 逻 辑 的 输入 和 输出 ， 
如 图 A-7-3 所 示 。 在 实际 设计 中 ， 必 须 注意 防止 这 种 情况 下 的 竞争 ， 并 确保 时 钟 周期 足够 
长 ，A.11 节 将 进一步 讨论 该 主题 。 





图 A-7-3 边沿 触发 方法 允许 在 同一 时 钟 周期 内 读 写 状态 单元 ， 从 而 不 会 因 产生 竞争 而 导致 
数据 值 的 不 确定 。 当 然 ， 时 钟 周期 必须 足够 长 ， 以 保证 在 有 效 时 钟 边沿 到 来 之 前 
输入 值 稳定 


[详细 立 述 有 时 ， 设 计 人 员 发 现 让 一 小 部 分 状态 单元 与 大 多 数 状态 单元 发 生 改 变 的 时 
钟 边沿 相反 会 很 有 用 。 这 样 做 需要 非常 小 心 ， 因 为 这 种 方法 对 状态 单元 的 输入 和 输出 都 有 影 
响 。 那 么 为 什么 设计 人 员 会 这 样 做 呢 ? 考虑 这 样 一 种 情况 : 状态 单元 之 前 和 之 后 的 组 合 逻 辑 
的 数量 足够 小 ， 因 此 每 个 元 件 可 以 在 半 个 时 钟 周期 内 执行 完 ， 而 不 是 更 常见 的 整个 时 钟 周 
期 。 然 后 ， 因 为 输入 和 输出 都 将 在 半 个 时 钟 周期 之 后 可 用 ， 状 态 单 和 
0 2 we 寄存 器 堆 : 一 个 状态 单元 ， 
元 可 以 在 对 应 于 半 个 时 钟 周期 的 时 钟 边沿 进行 写 入 。 使 用 这 种 技术 | 贞 _ 细 窜 存 器 组 战 ， 可 通 
的 一 个 常见 实例 是 寄存 器 堆 ， 简 单 地 读 或 写 寄 存 器 堆 通 常 可 以 在 正 ”| 过 提供 要 访问 的 寄存 器 号 
常 时 钟 周期 的 一 半 时 间 内 完成 。 第 4 章 利用 这 种 思想 来 减少 流水 线 | 来 进行 读 写 。 
开销 。 


A.8 存储 元 件 : 触发 器 、 锁 存 器 和 寄存 器 


在 本 节 和 下 一 节 中 ， 我 们 将 讨论 存储 元 件 的 基本 原理 。 从 触发 器 和 锁 存 器 开始 ， 然 后 是 
寄存 器 堆 ， 最 后 是 存储 器 。 所 有 的 存储 元 件 都 存储 状态 : 任何 存储 元 件 的 输出 都 取决 于 输入 
和 存储 在 存储 元 件 内 的 值 。 因 此 ， 包 含 存 储 元 件 的 所 有 逻辑 块 都 包含 状态 并 且 是 时 序 可 控 的 。 

最 简单 的 存储 元 件 是 无 时 钟 的 ， 也 即 是 说 ,它们 没有 任何 时 钟 信号 输入 。 虽 然 我 们 在 本 
章 中 仅 使 用 带 时 钟 的 存储 元 件 ， 但 是 无 时 钟 的 锁 存 器 是 最 简单 的 存储 元 件 ， 所 以 我 们 先 看 看 
这 个 电路 。 图 A-8-1 显示 了 一 个 S-R 锁 存 器 ( 置 位 - 复位 锁 存 器 )， 它 由 一 对 NOR (或 非 ) 门 
(具有 反 相 输出 的 或 门 ) 构成 。 输 出 0 和 2 表示 存储 状态 及 其 反 相 值 。 当 8 和 RR 都 没有 被 设 
为 有 效 时 ， 交 叉 耦 合 的 或 非 门 用 作 反 相 器 并 存储 O 和 2 先前 的 值 。 

例如 ， 如 果 输 出 2 为 真 ， 那 么 下 方 的 反 相 器 生成 假 输出 ( 即 2)， 它 成 为 上 方 反 相 器 的 
输入 ， 生 成 一 个 真 输出 ， 即 DO， 依 此 类 推 。 如 果 8 被 置 为 有 效 ， 那 么 输出 2 为 真 并 且 0 为 
假 ， 而 如 果 尺 被 置 为 有 效 ， 则 输出 2 为 真 且 0 为 假 。 当 5 和 RR 都 被 置 为 无 效 时 ，Q 和 0 的 
最 后 的 值 将 继续 存储 在 交叉 耦合 结构 中 。 同 时 将 8S$ 和 R 置 为 有 效 会 导致 错误 操作 : 这 取决 于 
S 和 RR 如 何 被 置 为 无 效 ， 锁 存 器 可 能 会 振荡 或 变 为 亚 稳 态 (这 部 分 将 在 A.11 节 中 详细 介绍 ) 。 
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图 A-8-1 一 对 交叉 耦合 的 NOR( 或 非 门 ) 可 以 存储 数据 。 存 储 在 输出 上 的 值 2 取 反 得 到 9， 
然后 O 取 反 得 到 O， 不 断 循环 。 如 果 有 R 或 CO 变 为 有 效 ， 则 @ 将 被 置 为 无 效 ， 反 
之 亦 然 


这 种 交叉 耦合 结构 是 更 复杂 的 存储 元 件 的 基础 ， 这 些 复杂 元 件 可 以 用 于 存储 数据 信和 号。 
这 些 元 件 还 包含 额外 的 门 电路 ， 用 于 存储 信号 值 和 仅 与 时 钟 配合 的 状态 更 新 。 下 一 节 将 介绍 
如 何 构建 这 些 存储 元 件 。 


A.8.1 触发 器 和 锁 存 器 


触发 器 和 锁 存 器 是 最 简单 的 存储 元 件 。 在 触发 器 和 锁 存 器 中 ， | 短发 器 ，_ 一 种 存储 元 件 ， 
输出 等 于 元 件 内 存储 状态 的 值 。 此 外 ， 与 上 述 S-R 锁 存 器 不 同 ， 接 | 其 偷 出 等 于 元 件 内 存储 状 
下 来 使 用 的 所 有 锁 存 器 和 触发 器 都 是 带 时 钟 的 ， 这 意味 着 它们 具有 | 态 的 值 ， 并 且 内 部 状态 人 
时 钟 输入 ， 并 且 状 态 的 改变 由 该 时 钟 触发 。 触 发 器 和 锁 存 器 之 间 的 “| 信和 生疏 守 。 

区 别 是 触发 状态 实际 改变 的 时 钟 位 置 不 同 。 在 带 时 钟 的 锁 存 器 中 ， 
只 要 时 钟 信号 有 效 ， 若 输入 改变 ， 状 态 就 会 随 之 改变 。 而 在 触发 器 et 
中 ,状态 仅 在 时 钟 边沿 上 改变 。 从 本 节 开 始 ， 我 们 使 用 边沿 触发 的 态 的 值 ， 并 且 当 时 钟 有 效 
时 序 控 制 方法 ， 其 中 ， 状 态 仅 在 时 钟 边沿 更 新 ， 因 此 使 用 触发 器 。 | 时 ， 只 要 有 适当 的 输入 变 
触发 器 通常 由 锁 存 器 构建 ， 因 此 我 们 首先 描述 一 个 简单 的 带 时 钟 的 “| 化 ， 状 态 就 会 改变 。 

锁 存 器 的 一 些 操作 ， 然 后 再 讨论 由 该 锁 存 器 构成 的 触发 器 。 

对 于 计算 机 应 用 ， 触 发 器 和 锁 存 器 的 功能 是 存储 信号 。D 锁 存 | D 触 发 器 : 具有 单个 数据 
器 或 D 触发 器 将 其 数据 给 入 信号 的 值 存储 在 内 部 存储 中 。 虽 然 还 有 | 先生 和 全 全 人 人 让 
许多 其 他 类 型 的 锁 存 器 和 触发 器 ， 但 D 型 是 我 们 需要 的 唯一 基本 外 | 内 部 存储 器 中 
辑 单元 。D 锁 存 器 有 两 个 输入 和 两 个 输出 。 输 入 是 要 存储 的 数据 值 
( D) 和 时 钟 信号 (C)，C 控制 锁 存 器 应 何 时 读 取 D 输入 上 的 值 并 存储 它 。 输 出 就 是 内 部 状态 
(0) 及 其 反 相 ( 匡 ) 的 值 。 当 时 钟 信 号 C 有效 时 ， 锁 存 器 处 于 开 状 态 ， 输 出 ( 0) 的 值 变 为 输 
入 万 的 值 。 当 时 钟 信号 C 无 效 时 ， 锁 存 器 处 于 关 状 态 ， 并 且 输 出 〈 0) 的 值 是 上 次 锁 存 器 打 
开 时 存储 的 值 。 

图 A-8-2 显示 了 如 何 通过 为 交叉 耦合 的 NOR (或 非 ) 门 添加 两 个 额外 的 门 电路 来 实现 D 
锁 存 器 。 由 于 当 锁 存 器 打开 时 ，0 的 值 随 着 D 的 变化 而 变化 ， 所 以 这 种 结构 有 时 也 被 称 为 透 
明 式 锁 存 器 。 图 A-8-3 显示 了 这 个 D 锁 存 器 如 何 工 作 ， 假设 输出 2 初始 值 为 假 且 D 先 改变 。 

如 前 所 述 ， 我 们 使 用 触发 器 而 不 是 锁 存 器 作为 基本 逻辑 单元 。 触 发 器 是 不 透明 的 ， 它 们 
的 输出 仅 在 时 钟 边沿 发 生变 化 。 触 发 器 在 上 升 ( 正 ) 或 下 降 ( 负 ) 的 时 钟 边沿 触发 ， 我 们 可 以 
选择 其 中 任何 一 种 方式 进行 设计 。 图 A-8-4 显示 了 如 何 利用 一 对 D 锁 存 器 构建 一 个 下 降 沿 的 
D 触发 器 。 在 D 触发 器 中 ， 输 出 在 时 钟 边沿 时 存储 。 图 A-8-5 给 出 了 这 个 触发 器 的 工作 原理 。 





图 A-8-2 


图 A-8-3 


图 A-8-4 


图 A-8-5 





利用 NOR (或 非 ) 门 实现 的 D 锁 存 器 。 如 果 另 一 个 输入 为 0， 则 或 非 门 用 作 反 相 
器 。 因 此 ， 除 非 时 钟 输入 C 有 效 ， 否 则 交叉 耦合 的 或 非 门 用 于 存储 状态 值 。 在 这 
种 情况 下 ,输入 DD 的 值 取 代 了 2 的 值 并 且 被 存储 。 当 时 钟 信号 C 从 有 效 变 为 无 
效 时 ,输入 DD 的 值 必须 保持 稳定 











Q 


D 锁 存 器 的 操作 ， 假 设 输出 的 初始 值 无 效 。 当 时 钟 C 有 效 时 ， 锁 存 器 打开 ，2 输 
出 立即 变 为 D 输 入 的 值 





下 降 沿 触发 的 D 触发 器 。 第 一 个 锁 存 器 〈 称 为 主 器 件 ) 打开 ， 并 在 时 钟 输入 C 有 
效 时 遵循 D 的 输入 。 当 时 钟 输入 C 下 降 时 ， 第 一 个 锁 存 器 关闭 ， 但 第 二 个 锁 存 器 
〈 称 为 从 器 件 ) 打开 ， 并 从 主 锁 存 器 的 输出 获得 其 输入 


下 降 沿 触发 的 DD 触发 器 的 操作 ， 假 设 输出 的 初始 值 无 效 。 当 时 钟 输入 (C) 从 有 
效 变 为 无 效 时 ，@ 输出 存储 DD 输 入 的 值 。 将 此 行为 与 图 A-8-3 中 所 示 的 时 钟 D 锁 
存 器 的 行为 进行 比较 。 在 时 钟 锁 存 器 中 ， 存 储 值 和 输出 2 都 在 C 为 高 电 平时 改 
变 ， 而 不 是 仅 在 C 转变 时 
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下 面 是 一 段 用 于 上 升 沿 D 触发 器 的 模块 的 Verilog 描述 ,假设 C 是 时 钟 输入 而 D 是 数据 
输入 : 
module DFF(clock,D,0Q,0Qbar):; 
input eloeck, Dy 
output reg 0Q; 
output Qbar; 
assign Qbar= ~ Q; 
always @(posedge clock) 
Q=D; 
endmodule 
由 于 输入 在 时 钟 边沿 采样 ， 因 此 必须 在 时 钟 边沿 的 之 前 和 之 
后 的 一 段 时 间 内 保持 有 效 。 在 时 钟 边沿 之 前 ， 输 入 必须 保持 有 效 的 
最 短 时 间 称 为 建立 时 间 ; 在 时 钟 边 沿 之 后 ， 必 须 保 持 有 效 的 最 短 时 
间 称 为 保持 时 间 。 因 此 ， 如 图 A-8-6 所 示 ， 任 何 触发 器 (或 使 用 触 
发 吉 构 建 的 任何 电路 ) 的 输入 必须 在 时 间 窗 口 期 间 有 效 ， 该 窗口 从 
时 钟 边沿 之 前 的 时 间 As 开始， 并且 在 时 间 边 沿 之 后 的 时 间 tea 结 
束 。A.11 节 更 详细 地 讨论 了 时 钟 和 时 序 约束 ,包括 触发 器 的 传播 


延迟 。 
OO 


建立 时 间 保持 时 间 


RR 


图 A-8-6 下 降 沿 触发 的 D 触发 器 的 建立 和 保持 时 间 要 求 。 输 入 必须 在 时 钟 边沿 之 前 以 及 时 
钟 边沿 之 后 的 一 段 时 间 内 保持 稳定 。 在 时 钟 边 沿 之 前 ， 信 和 号 必须 保持 稳定 的 最 短 
时 间 称 为 建立 时 间 ， 而 在 时 钟 边沿 之 后 ， 信 和 号 必须 保持 稳定 的 最 短 时 间 称 为 保持 
时 间 。 如 果 不 满足 这 些 最 低 要 求 ， 如 A.11 节 所 述 ， 可 能 会 导致 触发 器 的 输出 无 法 
预测 。 保 持 时 间 通 常 为 0 或 非常 小 ， 因 此 无 须 担心 


我 们 可 以 使 用 D 触发 器 阵列 来 构建 一 个 可 以 保存 多 位 数据 〈 例 如 字 节 或 字 ) 的 寄存 器 。 
我 们 在 第 4 章 的 数据 通路 中 使 用 了 寄存 器 。 


A.8.2 ”寄存 器 堆 


寄存 器 堆 是 一 个 对 数据 通路 至 关 重 要 的 结构 。 它 由 一 组 寄存 器 组 成 ， 可 通过 提供 要 访问 
的 寄存 器 号 来 进行 读 写 。 通 过 对 每 个 读 或 写 端口 添加 译 码 器 ， 以 及 由 D 触发 器 构建 的 寄存 器 
阵列 ， 就 可 以 实现 寄存 器 堆 。 因 为 读 寄 存 器 不 会 改变 任何 状态 ， 所 以 只 需要 提供 一 个 寄存 器 
号 作为 输入 ， 唯 一 的 输出 就 是 该 寄存 器 中 包含 的 数据 。 为 了 写 寄存 器 ， 需 要 三 个 输入 : 寄存 
器 号 、 要 写 和 的 数据 和 控制 写 寄 存 器 的 时 钟 。 在 第 4 章 中 ， 我 们 使 用 了 一 个 寄存 器 堆 ， 它 有 
两 个 读 端 口 和 一 个 写 端口 。 该 寄存 器 堆 如 图 A-8-7 所 示 。 读 端口 可 以 用 一 对 多 选 器 实现 ， 每 
个 多 选 器 的 宽度 与 寄存 器 堆 的 每 个 寄存 器 中 的 位 数 一 样 宽 。 图 A-8-8 给 出 了 64 位 宽 寄存 器 
堆 的 两 个 读 端口 的 实现 。 


建立 时 间 : 在 时 钟 边沿 之 
前 ， 存 储 单元 的 输入 必须 
保持 有 效 的 最 短 时 间 。 





保持 时 间 : 在 时 钟 边沿 之 
后 ， 存 储 单元 的 输入 必须 
保持 有 效 的 最 短 时 间 。 
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图 A-8-7 具有 两 个 读 端口 和 一 个 写 端口 的 寄存 器 堆 ， 有 五 个 输入 和 两 个 输出 。 控 制 输入 
Write 以 灰色 显示 
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图 A-8-8 具有 nn 个 寄存 器 的 寄存 器 堆 ， 两 个 读 端 口 的 实现 可 以 用 两 个 n 选 1 的 多 选 器 完 


成 ， 每 个 64 位 宽 。 寄 存 器 读数 字 信 和 号 用 作 多 选 器 的 选择 信号 。 图 A-8-9 显示 了 如 
何 实现 写 端口 


实现 写 端 口 稍微 复杂 一 些 ， 因 为 我 们 只 能 更 改 指 定 寄存 器 的 内 容 。 通 过 使 用 译 码 需 生成 
一 个 信号 ， 用 于 确定 要 写 和 人 哪个 寄存 器 ， 便 可 以 完成 此 操作 。 图 A-8-9 给 出 了 如 何 实现 寄存 
器 堆 的 写 端口 。 需 要 注意 的 是 要 记 住 触发 器 仅 在 时 钟 边沿 上 改变 状态 。 在 第 4 章 中 ,我 们 显 
式 地 连接 了 寄存 器 堆 的 写 信号 ， 并 假设 图 A-8-9 所 示 的 时 钟 默 认 加 入 了 。 
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C 
Register n—2 
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图 A-8-9 寄存 器 堆 的 写 端 口 用 译 码 器 实现 ， 该 译 码 器 与 写 信 号 一 起 使 用 以 产生 寄存 天 的 C 
输入 。 所 有 的 三 个 输入 (寄存 器 号 、 数 据 和 写 信 号 ) 都 有 建立 时 间 和 保持 时 间 约 
束 ， 以 确保 将 正确 的 数据 写 入 寄存 器 堆 


如 果 在 一 个 时 钟 周 期 内 读 写 相 同 的 寄存 器 会 发 生 什么 ?如 前 面 的 图 A-7-2 所 示 ， 由 于 寄 
存 器 堆 的 写 发 生 在 时 钟 边沿 ， 寄 存 器 的 值 在 读 取 期 间 保持 有 效 ， 所 以 返回 的 值 将 是 在 较 早 的 
时 钟 周期 中 写 和 的 值 。 如 果 我 们 希望 读 取 返 回 当前 正在 写 入 的 值 ， 则 需要 在 寄存 器 堆 中 或 其 
外 部 附加 逻辑 电路 。 第 4 章 广泛 使 用 了 这 种 逻辑 电路 。 


A.8.3 使 用 Verilog 描述 时 序 逻 辑 


要 使 用 Verilog 描述 时 序 软 辑 ， 我 们 必须 了 解 如 何 生成 时 钟 ， 如 何 描述 何 时 将 值 写 入 寄 
存 器 ， 以 及 如 何 指 定时 序 控制 。 我 们 从 描述 时 钟 开始 。 时 钟 不 是 Verilog 中 的 预定 义 对 象 ， 
需要 在 语句 之 前 使 用 Verilog 符号 #n 生成 时 钟 。 这 会 导致 在 执行 语句 之 前 延迟 n 个 模拟 时 钟 
步 。 在 大 多 数 Verilog 模拟 器 中 ， 还 可 以 生成 时 钟 作 为 外 部 输入 ， 人 允许 用 户 在 模拟 时 指定 运 
行 模拟 所 需 的 时 钟 周期 数 。 

图 A-8-10 中 的 代码 实现 了 一 个 简单 时 钟 ， 时 钟 维持 高 
或 低 电 平一 个 模拟 单元 ， 然 后 切换 状态 。 我 们 使 用 延迟 功 ei 
能 和 阻塞 赋值 来 实现 时 钟 。 

接 下 来 ， 我 们 必须 能 够 指定 边沿 触发 寄存 器 的 操作 。 在 Verilog 中 ， 这 是 通过 使 用 
always 块 上 的 敏感 列表 ， 以 及 符号 posedge 或 negedge 指定 二 进 制 变量 的 正 边沿 或 负 
边沿 触发 来 完成 的 。 因 此 ， 下 面 的 Verilog 代码 会 令 寄 存 器 A 在 正 边沿 时 钟 写 人 值 b: 

在 本 章 和 第 4 章 的 Verilog 部 分 中 ， 我 们 假设 都 使 用 正 边沿 触发 设计 。 图 A-8-11 给 出 了 
RISC-V 寄存 器 堆 的 Verilog 规范 ， 假 设 有 两 次 读 操作 和 一 次 写 操 作 ， 只 有 写 操作 需要 时 钟 。 
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reg [63:0] A; 
wire [6350] b: 


always @(posedge clock), A <= b; 


module registerfile (Readl,Read?,WriteReg,WriteData,RegWrite, 
Datal ,Data2,clock) ; 


input [5:0] Readl ,Read2 ,WriteReg; // the register numbers 
to read or write 
input [63:0] WriteData; // data to write 
input RegWrite, // the write control 
clock; // the clock to trigger write 
output [63:0] Datal, Data?2; // the register values read 
rg L630 RE LalsOls WA 32 PeglSters Sach 32. bits owmg 


assign Datal RF[Read1]:; 
assign Data2 RF[LRead2]; 


always begin 
// Write the register with new value if Regwrite is 
high 
@(posedge clock) if (RegWrite) RF[LWriteReg] “= 
WriteData; 
end 
endmodule 





图 A-8-11 用 行为 级 Verilog 描述 的 RISC-V 寄存 器 堆 。 这 个 寄存 器 堆 在 时 钟 上 升 沿 写 信 











A.9 存储 元 件 : SRAM 和 DRAM 


寄存 器 和 寄存 器 堆 是 小 型 存储 器 的 基本 单元 ， 而 要 组 成 大 型 存 | sRAM : 一 种 存储 器 ， 其 
储 器 ， 则 需要 用 到 SRAM ( static random access memory， 静 态 随机 | 数据 是 静态 存储 的 (如 触 
访问 存储 器 ) 或 DRAM (动态 随机 访问 存储 器 )。 我 们 先 讨论 稍微 简 | 发 器 ) 而 不 是 动态 存储 的 


(如 DRAM ) 。SRAM 比 
iv i 
单 点 的 SRAM, 然后 再 讨论 DRAM。 DRAM 更 快 ， 但 存储 密度 


A.9.1 SRAM 更 低 且 每 位 的 价格 更 高 。 


SRAM 是 一 个 简单 的 存储 阵列 集成 电路 ， 其 通常 只 有 单个 可 以 提供 读 或 写 的 访问 端口 。 
尽管 读 写 的 访问 特性 通常 不 同 ， 但 SRAM 对 任何 数据 的 访问 时 间 都 是 固定 的 。SRAM 芯片 根 
据 可 寻 址 空间 的 大 小 以 及 每 个 可 寻 址 单元 的 位 宽 有 相应 的 配置 。 例如 ，4Mx 8 的 SRAM 可 
以 提供 4M 个 表 项 ， 每 个 表 项 的 存储 宽度 为 8 位。 因此 ， 它 有 22 条 地 址 线 (因为 4M = 2 ””)、 
8 位 的 数据 输出 线 和 8 位 的 单个 数据 输入 线 。 与 ROM 一 样 ， 可 寻 址 范围 通常 称 为 高 度 ， 每 
个 可 寻 址 单元 的 位 数 称 为 宽度 。 由 于 各 种 技术 原因 ， 最 新 和 最 快 的 SRAM 通常 采用 “ 窗 ” 配 
置 : x1 和 x4。 图 A-9-1 给 出 了 2M x 16 型 SRAM 的 输入 和 输出 信号 。 

要 启动 读 或 写 操作 ， 片 选 (Chip select) 信号 必须 有 效 。 对 于 读 操作 ， 还 必须 激活 输出 使 
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能 (Output enable) 信号 ， 该 信号 控制 由 地 址 选择 的 数据 是 否 实际 在 引 脚 上 驱动 。 输 出 使 能 
信号 允许 将 多 个 存储 器 连接 到 单 输出 总 线 上 ， 并 决定 由 哪个 存储 器 来 驱动 总 线 。SRAM 读数 
据 的 访问 时 间 通 常 被 定义 为 从 输出 使 能 信号 有 效 和 地 址 线 有 效 ， 到 数据 出 现在 输出 总 线 上 的 
这 段 时 间 。2004 年 ， 拥 有 最 快 CMOS 器 件 的 SRAM 的 读 取 访问 时 间 大 约 为 2 ~~ 4ns， 这 些 
SRAM 通常 容量 较 小 ， 数 据 宽度 较 窗 ， 更 大 部 件 的 SRAM 的 读 取 访问 时 间 通 常 为 8 ~ 20ns。 
2004 年 已 经 有 容量 超过 32M 位 数据 的 SRAM 出 现 了 。 在 过 去 5 年 中 ， 消 费 产 品 和 数码 设备 
对 于 低 功 耗 SRAM 的 需求 大 大 增长 ， 这 些 SRAM 具有 更 低 的 待机 和 访问 功率 ， 但 通常 比 普 
通 SRAM 慢 5 ~ 10 倍 。 最 近 ， 类 似 于 同步 DRAM (下 一 节 讨 论 ) 的 同步 SRAM 也 已 经 开发 
出 来 了 。 

对 于 写 操 作 ， 必 须要 提供 要 写 的 数据 和 目的 地 址 ， 以 及 写 控制 信号 。 当 写 使 能 ( Write 
enable) 信号 和 片 选 信号 为 真 时 ， 数 据 输 入 线 上 的 数据 被 写 入 到 地 址 指定 的 单元 中 。 和 DD 触 
发 器 和 锁 存 器 一 样 ， 对 于 地 址 和 数据 线 ， 有 建立 时 间 和 保持 时 间 的 要 求 。 此 外 ， 写 使 能 信号 
不 是 时 钟 边 沿 ， 而 是 具有 最 小 宽度 约束 的 脉冲 。 完 成 写 操作 的 时 间 由 建立 时 间 、 保 持 时 间 和 
写 使 能 脉冲 宽度 共同 确定 。 

大 容量 SRAM 的 构建 方式 与 构建 寄存 器 堆 的 方式 不 同 ， 因 为 对 于 寄存 器 堆 而 言 ，32-1 
多 选 器 是 实用 的 ， 而 对 于 64K x 1 SRAM 来 讲 ， 使 用 64K-1 的 多 选 器 就 显得 不 切实 际 。 大 
容量 存储 器 不 使 用 巨型 的 多 选 器 ， 而 是 使 用 共享 的 输出 线 ( 称 为 位 线 ) 来 实现 ， 存 储 阵列 中 
的 多 个 存储 单元 都 可 以 将 其 置 为 有 效 。 为 了 满足 多 个 存储 单元 驱动 信号 线 ， 要 使 用 三 态 缓 
冲 器 。 三 态 缓冲 器 具有 两 个 输入 一 一 数据 信号 和 输出 使 能 信号 ; 以 及 一 个 输出 ， 它 有 三 种 
状态 一 一 有 效 、 无 效 或 高 阻 态 。 如 果 输 出 使 能 信号 有 效 ， 则 三 态 缓冲 器 的 输出 等 于 输入 。 否 
则 ， 和 输出 使 能 信号 无 效 ， 输 出 属于 高 阻 态 ， 由 另 一 个 输出 使 能 信号 有 效 的 三 态 缓冲 器 来 决定 
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图 A-9-1 一 个 32K x8 的 SRAM， 有 21 根 地 址 图 A-9-2 利用 4 个 三 态 缓冲 器 形成 多 选 器 。 只 
线 (32K=25 ) 和 16 位 数据 输入 线 ，3 能 识别 4 个 可 选择 输入 中 的 一 个 。 在 
条 控制 线 以 及 16 位 数据 输出 线 输出 使 能 无 效 时 ， 三 态 缓冲 器 输出 高 
组 态 ， 以 允许 输出 使 能 有 效 的 其 他 驱 
动 共享 的 输出 线 
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共享 输出 的 值 。 

图 A-9-2 给 出 了 一 组 三 态 缓 冲 髓 ， 用 于 形成 具有 译 码 输入 的 多 选 器 。 重 要 的 是 ， 至 多 只 
能 有 一 个 三 态 缓冲 器 的 输出 使 能 信号 为 有 效 ， 否 则 ， 三 态 缓冲 器 会 发 生 苋 争 输出 线 的 现象 。 
通过 在 SRAM 的 各 个 单元 中 使 用 三 态 缓冲 器 ， 对 应 于 特定 输出 的 每 个 单元 可 以 共享 相同 的 
输出 线 。 使 用 一 组 分 布 式 三 态 缓冲 器 比 大 型 集中 式 的 多 选 融 更 为 有 效 。 将 三 态 缓冲 器 垦 入 触 
发 器 ， 形 成 了 SRAM 的 基本 单元 。 图 A-9-3 显示 了 如 何 构建 一 个 小 的 4x2 SRAM， 使 用 了 
带 有 使 能 输入 的 D 锁 存 器 来 控制 三 态 输出 。 
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Dout[1] Dout[0] 
图 A-9-3 4x2 SRAM 的 基本 结构 包括 一 个 译 但 器 ， 用 于 选择 激活 哪 一 对 单元 。 激 活 的 单元 
使 用 连接 到 垂直 位 线 的 三 态 输出 ， 垂 直 位 线 提供 被 请 求 的 数据 。 选 择 单元 的 地 址 
在 一 组 水 平地 址 线 的 某 条 线 上 发 送 ， 称 为 字 线 。 为 简单 起 见 ， 省 略 了 输出 使 能 和 
片 选 信 号 ， 但 它们 可 以 简单 地 通过 一 些 与 门 接 入 进来 
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图 A-9-3 中 的 设计 消除 了 对 巨型 多 选 器 的 需求 。 但 是 它 仍 然 需 要 非常 大 的 译 码 妖 和 大 
量 的 字 线 。 例 如 ， 在 4M x8 SRAM 中 ， 需 要 一 个 22-4M 的 译 码 器 和 4M 条 字 线 (用 于 各 
个 触发 妖 的 使 能 )。 为 了 避免 这 个 问题 ， 大 型 存储 器 被 做 成 矩形 阵列 并 使 用 二 级 译 码 装置 。 
图 A-9-4 显示 了 如 何 使 用 二 级 译 码 实现 4M x 8 SRAM。 二 级 译 码 对 于 理解 DRAM 的 运行 方 
式 非 常 重要 。 


4Kx 4Kx 4Kx 4Kx 4Kx 4Kx 4Kx 4Kx 
1024 1024 1024 1024 1024 1024 1024 1024 
人 SRAM SRAM SRAM SRAM SRAM SRAM SRAM SRAM 
Address to 
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Dout7 Dout6 Dout5 Dout4 Dout3 Dout2 Dout1 Douto 
图 A-9-4 利用 4K x 1024 阵列 组 成 4M x 8 SRAM。 第 一 个 译 码 器 生成 8 个 4K x 1024 阵列 
的 地 址 ， 然 后 使 用 一 组 多 选 器 从 每 个 1024 位 宽 的 阵列 中 选择 1 位 。 这 比 需要 巨 
型 译 码 器 或 巨型 多 选 器 的 单 级 译 码 更 容易 设计 。 实 际 上 ， 现 在 这 种 大 小 的 SRAM 
可 能 会 使 用 更 大 数量 的 模块 ， 每 个 块 都 更 小 
最 近 ， 我 们 见证 了 同步 SRAM (SSRAM) 和 同步 DRAM (SDRAM) 的 发 展 。 同 步 RAM 
提供 的 关键 功能 是 能 够 从 阵列 或 行 中 的 一 系列 有 序 地 址 中 实现 数据 的 灸 发 式 传输 。 簇 发 由 起 
始 地 址 和 簇 发 长 度 定义 。 同 步 RAM 的 速度 优势 来 自 于 能 够 在 复发 中 传输 多 位 数据 而 无 须 指 
定额 外 的 地 址 位 。 但 在 簇 发 中 传输 连续 位 会 受到 时 钟 控制 。 簇 发 方式 中 ， 对 于 额外 地 址 位 的 
消除 显著 提高 了 传输 数据 块 的 速率 。 由 于 这 种 能 力 ， 同 步 SRAM 和 DRAM 正 迅 速成 为 在 计 
算 机 中 构建 存储 系统 的 首选 RAM。 我 们 在 下 一 节 和 第 5 章 中 更 详细 地 讨论 了 存储 系统 中 同 
步 DRAM 的 使 用 。 


A.9.2 DRAM 


在 静态 RAM(SRAM) 中 ， 存 储 在 单元 中 的 值 保存 在 一 对 反 相 门 上 ， 并 且 只 要 给 它 供电 ， 
该 值 就 可 以 无 限期 地 保持 。 在 动态 RAM (DRAM) 中 ,保存 在 单元 中 的 值 作为 电荷 存储 在 电 
容器 中 。 然 后 使 用 一 个 晶体 管 来 访问 该 存储 的 电荷 ， 以 读 取 该 值 或 覆盖 掉 存 储 的 电荷 。 由 于 
DRAM 存储 一 位 仅 使 用 一 个 晶体 管 ， 因 此 每 位 的 密度 更 高 ， 也 更 便宜 。 相 比 之 下 ，SRAM 每 
位 需要 四 到 六 个 晶体 管 。 因 为 DRAM 将 电荷 存储 在 电容 器 上 ， 所 以 不 能 无 限期 地 保存 ， 必 
须要 定期 刷新 。 这 就 是 为 什么 这 种 存储 结构 被 称 为 动态 ， 而 不 是 SRAM 单元 中 的 静态 存储 。 

要 刷新 存储 单元 ， 我 们 只 需 读 取 其 内 容 并 将 其 写 回 。 电 荷 可 以 保持 几 毫 秒 ， 这 对 应 于 
近 一 百 万 个 时 钟 周期 。 如 今 ， 单 芯片 存储 控制 器 通常 独立 于 处 理 器 处 理 刷新 功能 。 如 果 必 
须 从 DRAM 中 读 出 每 个 位 然后 再 单独 写 回 ， 一 旦 使 用 了 包含 几 兆 字 节 的 DRAM， 则 需要 不 
断 刷 新 DRAM 而 没有 时 间 访 问 它 。 好 在 DRAM 也 使 用 了 二 级 译 码 结构 ， 这 就 可 以 在 读 周 
期 后 紧 跟 一 个 写 周期 来 刷新 整个 行 (共享 一 个 字 线 )。 通 常 ， 刷 新 操作 占 DRAM 有 效 时 间 的 
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1%~2%， 剩 余 的 98% ~ 99% 的 时 间 可 用 于 读 和 写 数据 。 

| 弱 细 阐 述 DRAM 如 何 读 写 存储 在 单元 中 
的 信号 ? 单元 内 的 晶体 管 是 一 个 开关 ， 称 为 通 
道 晶 体 管 ， 允 许 存储 在 电容 上 的 值 被 读 取 或 写 
入 。 图 A-9-5 显示 了 单个 晶体 管 单元 的 外 观 。 
传输 晶体 管 的 作用 类 似 于 开关 : 当 字 线 上 的 信 
号 有 效 时 ， 开 关闭 合 ， 将 电容 器 连接 到 位 线 。 人 







字 线 


传输 晶体 管 


如 果 操 作 是 写 操 作 ， 则 将 要 写 入 的 值 放 在 位 线 
上 。 如 果 该 值 为 1， 则 电容 器 将 被 充电 ; 如 果 
该 值 为 0， 则 电容 器 将 放电 。 因 为 DRAM 必须 图 A-9.5 单 晶体 管 的 DRAM 单元 ， 包 含 存 
检测 存储 在 电容 器 中 的 非常 小 的 电荷 ， 所 以 读 储 单元 内 容 的 电容 器 和 用 于 访问 
取 稍 微 复杂 一 些 。 在 激活 用 于 读 取 的 字 线 之 前 ， 单元 的 晶体 管 
将 位 线 充 电 到 低 电 压 和 高 电压 之 间 一 半 的 电压 。 
然后 ， 通 过 激活 字 线 ， 电 容器 上 的 电荷 被 读 出 到 位 线 上 。 这 导致 位 线 稍微 向 高 或 低 电压 方向 
移动 ， 而 这 种 变化 可 以 由 能 够 检测 电压 微小 变化 的 传 感 放 大 器 检测 到 。 

如 图 A-9-6 所 示 ，DRAM 使 用 二 级 译 码 器 ， 分 别 实现 行 访问 和 列 访问 。 行 访问 选择 多 
行 中 的 一 行 并 激活 相应 的 字 线 ， 被 激活 行 中 所 有 列 的 内 容 存 储 在 一 组 锁 存 器 中 。 然 后 ， 列 
访问 从 列 锁 存 器 中 选择 数据 。 为 了 节省 引 脚 并 降低 封装 成 本 ， 行 地 址 和 列 地 址 共享 地 址 线 。 
一 对 称 为 RAS ( 行 访问 选 通 ) 和 CAS ( 列 访问 选 通 ) 的 信号 用 于 表示 正在 提供 行 或 列 地 址 。 
刷新 是 指 将 列 读 入 到 列 锁 存 器 后 ， 再 将 相同 的 值 写 回 。 因 此 ， 整 个 行 可 在 一 个 周期 内 完成 
刷新 。 和 内 部 电路 结合 的 两 级 寻 址 方案 ， 使 得 DRAM 的 访问 时 间 比 SRAM 访问 时 间 长 得 
多 (5 一 10 倍 )。2004 年， 典型 的 DRAM 访问 时 间 为 45 一 65ns，256Mbit DRAM 已 量 产 ， 
1GB DRAM 的 首 批 客户 样片 于 2004 年 第 一 季度 生产 出 来 。 由 于 每 位 成 本 更 低 ，DRAM 成 为 
主 存 的 首选 ， 而 更 快 的 访问 时 间 使 SRAM 成 为 cache 的 首选 。 
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Dout 
图 A-9-6 利用 2048 x 2048 阵列 实现 的 4M x 1DRAM。 行 访问 使 用 11 位 来 选择 一 行 ， 然 后 
将 其 锁 存 在 2048 个 1 位 锁 存 器 中 。 多 选 器 选择 来 自 这 2048 个 锁 存 器 的 输出 位 。 
RAS 和 CAS 信和 号 控制 地 址 线 是 否 被 发 送 到 行 译 码 器 或 列 多 选 器 


读者 可 能 会 发 现 ，64M x 4 DRAM 实际 上 在 每 行 访问 时 能 访问 8K 位 ， 然 后 在 列 访问 时 
丢弃 得 只 剩 下 4 位 。DRAM 设计 人 员 早 已 使 用 DRAM 的 内 部 结构 实现 了 更 高 的 带宽 。 这 是 
通过 允许 在 不 改变 行 地 址 的 情况 下 改变 列 地 址 来 完成 的 ， 从 而 可 以 访问 列 锁 存 器 中 的 其 他 
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位 。 为 了 使 这 个 过 程 更 快 更 精确 ， 地 址 输入 被 时 钟 同 步 ， 这 产生 了 当今 使 用 的 主流 DRAM 
形式 : 同步 DRAM 或 SDRAM。 

自 1999 年 以 来 ,对 于 大 多 数 基于 cache 的 主 存 系统 来 说 ，SDRAM 已 成 为 首选 的 存储 器 
必 片 。SDRAM 通过 在 时 钟 信 号 的 控制 下 顺序 簇 发 传输 一 行 中 的 所 有 位 提供 行内 快速 访问 。 
2004 年 ，DDR RAM ( 双 售 数据 传输 率 RAM) 是 最 常用 的 SDRAM 类 型 ， 之 所 以 被 称 为 双 信 
数据 传输 率 ， 是 因为 它 可 以 在 外 部 提供 时 钟 的 上 升 沿 和 下 降 沿 都 传输 数据 。 正 如 在 第 5 章 中 
所 讨论 的 ， 这 些 高 速 传输 可 用 于 增加 主 存 可 用 的 带宽 ， 以 满足 处 理 器 和 cache 的 需求 。 


A.9.3 ”错误 修正 


由 于 大 容量 存储 器 中 存在 数据 损坏 的 可 能 性 ， 因 此 大 多 数 计算 机 系统 使 用 某 种 校 验 码 来 
检测 可 能 存在 的 数据 损坏 。 一 种 普遍 使 用 且 足 够 简单 的 是 奇偶 校 验 码 。 在 奇偶 校 验 码 中 ， 计 算 
一 个 字 中 的 1 的 数量 ; 如果 1 的 数量 是 奇数 ， 则 该 字 具 有 奇 校 验 ， 否 则 为 偶 校 验 。 当 一 个 字 写 
入 存储 器 时 ， 也 会 写 人 奇偶 校 验 位 ( 1 表示 奇数 ，0 表示 偶数 )。 然 后 ， 当 读 出 该 字 时 ， 读 取 并 
检查 奇偶 校 验 位 。 如 果 存 储 器 字 的 奇偶 校 验 和 存储 的 奇偶 校 验 位 不 匹配 ， 则 说 明 发 生 错误 。 

1 位 的 奇偶 校 验方 案 可 以 检测 数据 项 中 最 多 1 位 的 错误 ， 如 果 存 在 2 位 错误 ， 则 1 位 奇 
偶 校 验方 案 将 不 会 检测 到 任何 错误 ， 因 为 发 生 2 位 错误 数据 的 奇偶 校 验 位 不 发 生变 化 ， 仍 然 
满足 要 求 。( 实 际 上 ，1 位 奇偶 校 验 方案 可 以 检测 到 任何 奇数 个 错误 ; 但 是 ， 具 有 3 个 错误 的 
概率 远 低 于 具有 2 个 错误 的 概率 ， 因 此 ， 实 际 上 ，1 位 奇偶 校 验 码 仅 限于 检测 1 位 错误 。) 当 
然 ， 奇偶 校 验 码 无 法 判断 数据 项 中 的 哪个 位 出 错 。 

1 位 奇偶 校 验 方案 是 一 种 检 错 码 ， 还 有 一 种 纠 错 码 (ECC)， 它 “| 检 错 码 ， 一 种 校 验 码 ,可 
能 够 检测 并 纠正 错误 。 对 于 大 容量 主 存 ， 许 多 系统 使 用 的 纠 错 码 人 多 “| 以 检测 到 数据 中 的 错误 ， 
许 检测 最 多 2 位 的 错误 并 纠正 单个 错误 位 。 这 些 校 验 码 使 用 更 多 位 “| 但 不 能 检测 到 精确 的 位 
来 编码 数据 的 方式 ， 例 如 ， 用 于 主 存 的 常用 校 验 码 每 128 位 数据 需 | "下 法 生 下 错误 。 
要 7 或 8 位 纠 错 码 。 

到 了 阐述 1 位 奇偶 校 验 码 是 距离 为 2 的 编码 方法 ， 这 意味 着 对 于 数据 位 和 校 验 位 来 
说 ， 任 何 1 位 的 变化 都 可 以 被 检测 出 来 。 例 如 ， 如 果 更 改 数据 中 的 某 个 位 ， 则 检验 位 将 出 
错 ， 反 之 亦 然 。 当 然 ， 如 果 改 变 2 位 (任何 2 个 数据 位 或 1 个 数据 位 和 1 个 校 验 位 )， 奇偶 校 
验 位 将 依然 和 数据 匹配 ， 从 而 将 无 法 检测 到 错误 。 因 此 ， 这 是 一 种 距离 为 2 的 校 验 码 。 

为 了 检测 多 个 错误 或 纠正 错误 ， 需 要 一 种 距离 为 3 的 编码 ， 该 编码 具有 这 个 特性 : 纠 
错 码 和 数据 的 任意 组 合 之 间 至 少 有 3 位 不 同 。 假 设 存在 这 样 的 编码 方法 ， 并 且 在 数据 中 有 一 
个 错误 。 在 这 种 情况 下 ， 我 们 可 以 检测 出 里 面 有 1 位 错误 ， 并 对 其 进行 纠正 。 如 果 有 两 个 错 
误 ， 则 可 以 识别 出 存在 错误 ， 但 无 法 纠正 错误 。 我 们 来 看 一 个 例子 ， 以 下 是 4 位 数据 项 的 数 
据 字 和 距离 为 3 的 纠 错 码 。 


和 






































0000 000 | 4000 111 
0001 011 1001 100 
0010 101 1010 010 | 
0011 110 1011 001 
0100 110 1100 | 001 
0101 101 1101 010 
0110 l 011 | 1110 100 
0111 000 | 1111 111 
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为 了 了 解 其 工作 原理 ， 让 我 们 选择 一 个 数据 字 ， 比 如 0110， 其 纠 错 码 为 011。 以 下 是 该 
数据 发 生 1 位 错误 的 四 种 情况 : 1110，0010,，0100，0111。 请 注意 ，011 既是 0110 的 纠 错 码 ， 
也 是 0001 的 纠 错 码 。 如 果 纠 错 译 码 器 接收 到 具有 错误 的 四 个 可 能 数据 字 之 一 ， 则 必须 在 校 
正 到 0110 或 0001 之 间 进 行 选择 。 而 这 四 个 字 如 果 相 对 于 0110 只 有 !1 位 错误 ， 则 它们 每 个 都 
有 2 位 与 0001 不 同 。 因 此 ， 由 于 1 位 错误 的 概率 更 高 ， 纠 错 机 制 可 以 很 容易 地 选择 纠正 到 
0110。 要 检测 到 2 位 错误 ， 只 需 注意 所 有 2 位 错误 的 组 合 具 有 不 同 的 编码 。 相 同 编码 的 一 次 
重用 与 3 位 不 同 ， 但 如 果 我 们 纠正 2 位 错误 ， 将 纠正 成 错误 的 值 ， 因 为 译 码 器 将 假定 只 发 生 
了 1 位 错误 。 如 果 我 们 想 要 对 1 位 、2 位 错误 都 有 纠 错 功能 ， 则 需要 一 个 距离 为 4 的 校 验 码 。 

虽然 我 们 在 解释 中 区 分 了 校 验 码 和 数据 ， 但 事实 上 ， 纠 错 码 将 校 验 码 和 数据 的 组 合 视 为 
更 大 编码 中 的 单个 字 (在 本 例 中 为 7 位 )。 因 此 ， 它 以 与 数据 位 中 的 错误 相同 的 方式 处 理 校 
验 码 中 的 错误 。 

虽然 上 面 的 例子 对 nn 位 数据 需要 nl1 位 校 验 码 ， 但 其 实 所 需 的 位 数 增长 缓慢 。 对 于 距 
离 为 3 的 校 验 码 ，64 位 字 需 要 7 位 ，128 位 字 需 要 8 位 。 这 种 校 验 码 后 来 被 称 为 汉 明码 ， 因 
为 R. Hamming 描述 了 创建 这 种 校 验 码 的 方法 。 


A.10 ”有 限 状 态 自动 机 Ce 


如 前 所 述 ， 数 字 逻 辑 电 路 可 以 分 为 组 合 电路 和 时 序 电 路 。 时 序 | 序 逻 辑 函数 。 它 包括 一 组 
电路 的 状态 存储 在 系统 内 部 的 存储 元 件 中 ， 它 们 的 行为 取决 于 所 提 “| 输入 、 输 出 、 将 当前 状态 
供 的 一 系列 输入 以 及 内 部 存储 的 数据 或 系统 状态 。 因 此 ， 时 序 电路 “| 和 人 时 各 全 呈 
不 能 用 真 值 表 来 描述 。 相 反 ， 它 被 描述 为 有 限 状态 自动 机 (或 状态 “| 状态 和 输入 映射 到 一 组 有 
机 )。 有 限 状 态 自 动机 具有 一 组 状态 和 两 个 函数 (下 一 状态 函数 和 输 | 效 输 出 的 输出 函数 。 

出 函数 )。 状 态 集 对 应 于 内 部 存储 的 所 有 可 能 值 。 因 此 ， 对 于 位 存 ey 
储 ， 就 有 2" 个 状态 。 下 一 状态 函数 是 一 种 组 合 函数 ， 给 定 输入 和 当 | 也 
前 状态 ， 就 可 以 确定 系统 的 下 一 个 状态 。 输 出 函数 根据 当前 状态 和 ”| 前 状态 ， 就 可 以 确定 有 限 
输入 产生 一 组 输出 。 图 A-10-1 给 出 了 有 限 状 态 自 动机 的 图 示 。 状态 自动 机 的 下 一 个 状态 。 





图 A-10-1 状态 机 由 包含 状态 和 两 个 组 合 函 数 (下 一 状态 函数 和 输出 函数 ) 的 内 部 存储 器 
组 成 。 通 常 ， 输 出 函数 只 会 将 当前 状态 作为 其 输入 ， 这 不 会 改变 时 序 机 的 能 力 ， 
但 会 影响 其 内 部 值 
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在 本 节 和 第 4 章 讨 论 的 状态 机 都 是 同步 的 。 这 说 明 状 态 随时 钟 周期 变化 ， 并 且 每 个 时 钟 
周期 计算 一 次 新 状态 。 因 此 ， 状 态 单 元 仅 在 时 钟 边沿 更 新 。 在 本 节 和 第 4 章 中 我 们 使 用 了 这 
种 方法 ， 但 通常 不 显 式 地 表明 时 钟 。 在 第 4 章 中 ,我 们 使 用 状态 机 来 控制 处 理 器 的 执行 和 数 
据 通路 的 操作 。 

为 了 说 明 有 限 状态 自动 机 的 运行 和 设计 ， 让 我 们 看 一 个 简单 的 经 典 示 例 : 控制 交通 信和 号 
灯 。( 第 4 章 和 第 5 章 包 含 使 用 有 限 状态 自动 机 控制 处 理 器 执行 的 更 详细 示例 。) 当 有 限 状态 
自动 机 用 作 控 制 器 时 ， 输 出 函数 通常 仅 依赖 于 当前 状态 。 这 种 有 限 状态 自动 机 称 为 摩尔 机 。 
这 是 我 们 在 本 书 中 所 使 用 的 有 限 状态 自动 机 。 如 果 输 出 函数 依赖 于 当前 状态 和 当前 输入 ， 则 
该 机 器 称 为 米利 机 。 这 两 种 机 器 的 功能 相同 ， 二 者 在 物理 上 可 相互 转换 。 摩 尔 机 的 基本 优势 
在 于 更 快 ， 而 米利 机 则 更 小 巧 ， 因 为 它 比 摩尔 机 需要 的 状态 更 少 。 在 第 5$ 章 中 ， 我 们 更 详细 
地 讨论 了 这 些 差异 ， 并 给 出 了 使 用 米利 机 实现 的 有 限 状 态 控制 的 Verilog 版 本 。 

我 们 的 示例 是 交通 信号 灯 ， 其 位 于 一 个 南北 路 线 和 东西 路 线 相 交 的 位 置 。 为 简单 起 见 ， 
我 们 只 考虑 绿灯 和 红 灯 ， 黄 灯 留 作 练习 。 我 们 和 希望 灯 在 各 方向 的 切换 周期 不 超过 30 秒 。 因 
此 采用 了 0.033Hz 的 时 钟 ， 以 便 信 号 灯 在 状态 之 间 的 控制 周期 不 超过 30 秒 。 其 中 有 两 个 输 
出 信号 : 

e NSlite : 当 该 信号 有 效 时 ， 南 北方 向 上 的 交通 灯 为 绿色 ; 当 该 信号 无 效 时 ， 南 北方 向 

上 的 交通 灯 为 红色 。 
e EWlite : 当 该 信号 有 效 时 ， 东 西方 向 上 的 交通 灯 为 绿色 ; 当 该 信号 无 效 时 ， 东 西方 向 
上 的 交通 灯 为 红色 。 

e NScar: 表示 汽车 位 于 探测 器 处 ， 探 测 需 在 南北 向 道路 的 交通 灯 前 方 〈 往 南 或 往 北 )。 

e EWcar: 表示 汽车 位 于 探测 器 处 ， 探 测 器 在 东西 向 道路 的 交通 灯 前 方 〈 往 东 或 往 西 )。 

只 有 当 汽 车 正在 等 待 向 另 一 个 方向 行驶 时 ， 交 通 灯 才 会 在 红绿灯 之 间 切 换 。 和 否则， 交通 
灯 的 状态 不 变 ， 直 到 该 方向 上 的 最 后 一 辆 汽车 通过 交叉 路 口 为 止 。 

为 了 实现 该 交通 灯 ， 需 要 两 个 状态 : 

e NSgreen: 南北 向 的 交通 灯 为 绿色 。 

e EWgreen: 东西 向 的 交通 灯 为 红色 。 

我 们 还 需要 通过 状态 表 来 构造 下 一 状态 函数 : 





























NSgreen 0 0 NSgreen 
NSgreen 0 1 EWgreen 
NSgreen 出 0 NSgreen 
NSgreen 1 出 | EWgreen 
EWgreen 0 0 EWgreen 
EWgreen | 0 | 1 EWgreen 
EWgreen 4 | 0 | NSgreen 
EWgreen 1 1 NSgreen 























请 注意 ， 我 们 没有 在 算法 中 指定 当 汽 车 从 两 个 方向 接近 时 会 发 生 什么 。 在 这 种 情况 下 ， 
上 面 的 下 一 状态 函数 表 需 要 修改 以 确保 来 自 一 个 方向 的 汽车 不 会 导致 男 一 方向 的 堵塞 。 
有 限 状 态 自动 机 可 通过 指定 输出 函数 来 实现 。 
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在 研究 如 何 实现 这 个 有 限 状 态 自 动机 之 前 ,我 们 先 看 一 下 有 限 状 态 自动 机 的 图 形 表 示 。 
在 该 表示 中 ， 节 点 表示 状态 。 在 节点 中 ,我 们 放置 了 一 个 对 该 状态 有 效 的 输出 列表 。 有 向 弧 
用 于 指出 下 一 状态 函数 ， 弧 上 的 标签 将 输入 条 件 指定 为 逻辑 函数 。 图 A-10-2 给 出 了 这 种 有 
限 状态 自动 机 的 图 形 表示 。 




















NSgreen 4 [ 0 
EWgreen 0 | 1 
EWcar 





NSgreen EWgreen 
EWcar NScar 


图 A-10-2 2 状态 交通 灯 控 制 器 的 图 形 表 示 。 我 们 简化 了 状态 转换 的 逻辑 畏 数 。 例 如 ， 在 
下 一 个 状态 表 中 从 NSgreen 到 EWegreen 的 传输 信号 是 (NScar* EWcar)+ 
(NScar * EWcar)， 相 当 于 EWcar 


有 限 状态 自动 机 可 以 这 样 实现 : 利用 寄存 器 保持 当前 状态 ， 组 合 逻辑 电路 计算 下 一 状态 
函数 和 输出 函数 。 图 A-10-3 给 出 了 状态 量 为 4 位 的 有 限 状态 自动 机 ， 它 最 多 可 以 有 16 个 状 
态 。 要 以 这 种 方式 实现 有 限 状态 自动 机 ， 首 先 要 给 状态 标号 ， 此 过 程 称 为 状态 分 配 。 例 如 ， 
我 们 可 以 将 NSgreen 指定 为 状态 0， 将 EWgreen 指定 为 状态 1。 状 态 寄 存 器 保存 1 位 数据 。 
下 一 状态 函数 由 以 下 公式 计算 : 

NextState = (CurrentState “ EWcar) + (CurrentState : NScar) 








输入 
图 A-10-3 ”有限 状态 自动 机 用 状态 寄存 器 来 实现 ， 它 包含 一 个 当前 状态 以 及 用 于 计算 下 一 
个 状态 函数 和 输出 函数 的 组 合 逻辑 块 。 后 两 个 函数 经 常 被 拆 分 并 用 两 个 独立 的 
逻辑 块 实现 ， 因 为 这 样 做 需要 的 门 电路 更 少 
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其 中 ，CurrentState 是 状态 寄存 器 的 值 (0 或 1)。NextState 是 下 一 状态 函数 的 输出 ， 会 在 时 
钟 周期 末尾 被 写 人 状态 寄存 器 。 输 出 函数 也 很 简单 : 
NSlite = CurrentState 
EWlite = CurrentState 
组 合 逻 辑 电路 通常 使 用 结构 化 逻辑 来 实现 ， 例 如 PLA。PLA 可 以 通过 下 一 状态 表 和 输 
出 函数 表 自 动 构建 。 事实 上 ,还 可 以 使 用 计算 机 辅助 设计 ( CAD) 软件 ， 它 先 把 有 限 状 态 自 
动机 进行 图 形 或 文本 表示 ， 然 后 再 自动 生成 优化 电路 设计 。 在 第 4 章 和 第 5 章 中 ， 有 限 状 态 
自动 机 被 用 于 控制 处 理 嚣 执行。 附录 C 详细 讨论 了 利用 PLA 和 ROM 来 实现 这 些 控制 。 
为 了 展示 我 们 如 何在 Verilog 中 编写 控制 逻辑 ， 图 A-10-4 给 出 了 综合 的 Verilog 版 本 。 
请 注意 ， 对 于 这 个 简单 的 控制 功能 ， 米 利 机 没有 用 ,但 是 在 第 5 章 中 使 用 这 种 规范 实现 控制 
功能 的 就 是 米利 机 ， 并 且 比 摩尔 机 拥有 的 状态 更 少 。 


module TrafficLite (EWCar,NSCar,EWLite,NSLite,clock); 


input EWCar, NScar .elock; 
output EWLite,NSLite; 


reg' state; 
initial state=0; //set initial state 


//following two assignments set the output, which is based 
only on the state variable 
assign NSLite = ~ state; //NSLite on if state 


= "Dy 
assign EWLite = state; //EWLite on if state = 1 


always @(posedge clock) // all state updates on a positive 
clock edge 
case (state) 
0: state = EWCar; //change state only if EWCar 


1: state = ~ NSCar; // change state only if NSCar 


endcase 
endmodule 





图 A-10-4 交通 信号 灯 的 Verilog 版 本 





A.11 定时 方法 

在 本 附录 和 本 书 剩余 内 容 中 ,我 们 均 使 用 边沿 触发 的 定时 方法 。 这 种 方法 的 优点 在 于 ， 
与 电 平 触 发 的 方法 相 比 ， 它 更 易于 解释 和 理解 。 在 本 节 中 ,我 们 将 更 详细 地 阐述 这 种 定时 方 
法 ,并 介绍 对 电 平 敏感 的 时 钟 控制 。 在 本 节 末 尾 ， 我 们 会 简要 讨论 异步 信号 和 同步 器 ， 这 对 
于 数字 逻辑 设计 人 员 来 说 也 是 一 个 重要 问题 。 

本 节 的 目的 是 介绍 时 钟 同步 方法 的 主要 概念 ， 并 假定 了 一 些 重要 的 条 件 。 如 果 有 兴趣 更 
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详细 地 了 解 定时 方法 ， 请 参阅 本 附录 未 列 出 的 参考 文献 。 

我 们 采用 边沿 触发 的 定时 方法 ， 因 为 它 更 容易 解释 ， 并 且 达 到 正确 性 几乎 不 需要 什么 
规则 。 特 别 是 ， 如 果 假 设 所 有 时 钟 同时 到 达 ,, 并 且 时 钟 周期 足够 长 ， 那 么 可 以 保证 ， 组 合 逻 
辑 电路 中 具有 边沿 触发 寄存 器 的 系统 ， 可 以 在 没有 竞争 的 情况 下 正确 执行 操作 。 当 状态 单元 
的 值 取决 于 不 同 逻 辑 元 件 的 相对 速度 时 ， 就 会 发 生 竞争 。 在 边沿 触发 设计 中 ， 时 钟 周期 必须 
足够 长 ， 以 满足 从 一 个 触发 器 通过 组 合 逻 辑 到 另 一 个 触发 器 的 路 径 时 间 ， 另 一 个 触发 器 还 必 
须 满足 建立 时 间 要 求 。 图 A-11-1 显示 了 使 用 上 升 沿 触发 的 触发 器 系统 必须 满足 的 时 钟 条 件 。 
在 这 样 的 系统 中 ， 时 钟 周期 (或 周期 时 间 ) 必须 至 少 与 下 式 一 样 大 : 

tprop + tcombinational + tsetup 
对 于 这 3 种 延迟 的 最 坏 情况 值 ， 定 义 如 下 : 

e tprop 是 信号 通过 触发 器 传播 的 时 间 ， 有 时 也 被 称 为 clock-to-O。 

e tombinational 是 对 于 任何 组 合 逻 辑 〈 定 义 为 被 两 个 触发 需 包 围 的 部 分 ) 的 最 长 延 时 。 

e ketup 是 在 时 钟 上 升 沿 到 来 之 前 ， 触 发 器 的 输入 必须 保持 有 效 的 时 间 。 


Q 






Q 


Flip-flop Flip-flop 





二 一 和 -二 


图 A-11-1 在 边沿 触发 设计 中 ， 时 钟 周期 必须 足够 长 ， 以 保证 下 一 个 时 钟 沿 到 来 之 前 的 信号 
在 建立 时 间 内 有 效 。 信 号 从 触发 器 输入 传播 到 触发 器 输出 的 时 间 是 tw，。， 然 后 ， 
信号 需要 tcomvinationa 的 时 间 通 过 组 合 逻 辑 ， 并 且 必 须 在 下 一 个 时 钟 沿 到 来 之 前 的 
tenp 时 间 内 为 有 效 


我 们 做 了 一 个 简化 的 假设 : 满足 触发 的 保持 时 间 的 要 求 。 这 对 于 现代 逻辑 设计 来 说 几乎 
不 是 问题 。 

边沿 触发 设计 中 必须 考虑 的 男 一 个 复杂 因素 是 时 钟 扭 斜 。 时 名 时 杭 所 匀 。 商 不 闭 坊 元 忻 
扭 斜 是 两 个 状态 元 件 看 到 的 时 钟 边 沿 间 的 绝对 时 间 差 。 时 钟 扭 斜 产 | 看 到 时 钟 边沿 的 时 间 之 间 
生 的 原因 是 时 钟 信号 通常 会 使 用 两 条 不 同 的 路 径 ， 经 过 略微 不 同 的 ”| 的 绝对 时 间 差 。 
延 时 ， 到 达 两 个 不 同 的 状态 元 件 。 如 果 时 钟 扭 斜 足够 大 ， 则 状态 元 
件 的 值 可 能 会 变化 ， 从 而 导致 另 一 个 触发 器 的 输入 在 第 二 个 触发 器 看 到 时 钟 边沿 之 前 发 生 
在 化 

抛 开 建立 时 间 和 触发 器 传播 延迟 ， 图 A-11-2 说 明了 这 个 问题 。 为 避免 错误 发 生 ， 需 要 
增 大 时 钟 周期 以 克服 最 大 时 钟 扭 斜 。 因 此 ， 时 钟 周期 必须 大 于 : 


tprop + fcombinational * tsetup + lskew 


给 时 钟 周期 加 上 这 个 限制 条 件 后 ， 允 许 两 个 时 钟 到 达 的 先后 次 序 颠 倒 ， 即 第 二 个 时 钟 提 
前 tew 到 达 ， 电 路 依然 会 正常 工作 。 设 计 人 员 通 过 仔细 设计 时 钟 信号 的 路 由 来 减少 时 钟 扭 斜 
问题 ， 最 大 限度 地 缩短 到 达 时 间 的 差异 。 此 外 ， 聪 明 的 设计 人 员 还 通过 稍稍 增 大 时 钟 周期 来 
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减少 时 钟 扭 斜 ， 这 些 变 化 在 逻辑 元 件 和 电源 上 都 是 允许 的 。 由 于 时 钟 扭 矢 也 会 影响 保持 时 间 


的 要 求 ， 因 此 最 小 化 时 钟 扭 斜 的 值 非常 重要 。 
D Q 
| 
C 


Flip-flop 组 合 逻 辑 
人 的 延迟 时 六 时 钟 在 
人 电路 有 人 A 的 延迟 时 间 太公 这 


图 A-11-2 时钟 扭 斜 如 何 导致 竞争 并 导致 错误 操作 。 由 于 两 个 触发 器 看 到 时 钟 的 时 间 不 同 ， 
存储 在 第 一 个 触发 器 中 的 信号 可 以 向 前 传输 ， 并 在 时 钟 到 达 第 二 个 触发 器 之 前 改 
变 第 二 个 触发 器 的 输入 


边沿 触发 设计 有 两 个 缺点 : 需要 额外 的 逻辑 电路 ;有 时 可 能 会 “| 电 平 敏感 的 时 钟 控制 : 一 
更 慢 。 比 较 D 触发 器 与 用 于 构造 触发 器 的 电 平 敏感 锁 存 器 ， 边 沿 触 | 种 定时 方法 ， 其 状态 变化 
发 设计 需要 更 多 逻辑 电路 。 另 一 种 方法 是 采用 电 平 敏感 的 时 钟 控制 。 eh 
由 于 对 电 平 敏感 方法 的 状态 变化 不 是 瞬时 的 ， 因 此 该 方法 稍微 复杂 “| 局 ” 它 不 是 啤 时 的 。 
一 些 ， 需 要 考虑 额外 的 因素 才能 使 其 正常 运行 。 


A.11.1 电 平 敏感 的 时 钟 控制 


在 电 平 敏感 的 时 钟 控制 中 ， 状 态 变化 发 生 在 高 电 平 或 低 电 平 ， 但 不 是 瞬时 的 ， 因 为 它 
们 不 采用 边沿 触发 。 由 于 状态 的 非 瞬 时 变化 ， 很 容易 发 生 竞争 现象 。 如 果 时 钟 足够 慢 ， 为 
确保 电 平 敏感 设计 也 能 正常 工作 ,设计 人 员 使 用 了 双向 时 钟 控制 。 双 向 时 钟 控制 是 一 种 利 
用 两 个 非 重 至 时 钟 信号 的 方法 。 由 于 两 个 时 钟 (通常 称 为 B81 和 8B2 ) 是 非 重合 的 ， 因 此 在 
任何 给 定时 间 ， 如 图 A-11-3 所 示 ， 至 多 有 一 个 时 钟 信 号 为 高 电 平 。 我 们 可 以 使 用 这 两 个 时 
钟 来 构建 一 个 包含 电 平 敏感 锁 存 器 的 系统 ， 且 不 受 任何 竞争 条 件 的 影响 ， 就 如 边沿 触发 设计 
一 样 。 






时 钟 在 
t 时 到 达 





非 重 琶 时 段 
图 A-11-3 ”双向 时 钟 控制 机 制 ， 显 示 了 每 个 时 钟 的 周期 和 非 重 全 时 段 


设计 这 种 系统 的 一 种 简单 方法 是 交替 使 用 在 B1 上 处 于 开 状 态 和 在 62 上 处 于 开 状 态 的 
锁 存 器 。 因 为 两 个 时 钟 不 同时 有 效 ， 所 以 不 会 发 生 竞争 现象 。 如 果 组 合 逻 辑 的 输入 是 B1 时 
钟 ， 则 其 输出 会 在 62 时 钟 被 锁 存 ， 该 输出 仅 在 输入 锁 存 器 闭合 的 B2 期 间 开 放 ， 因 此 输出 
为 有 效 。 图 A-11-4 显示 了 具有 双向 时 钟 控制 和 交替 锁 存 器 的 系统 如 何 工 作 。 和 边沿 触发 设 
计 一 样 ， 我 们 必须 注意 时 钟 扭 斜 问题 ， 特 别 是 在 两 个 时 钟 相 位 之 间 。 通 过 增加 两 个 相位 间 的 
非 重 释 量 ， 就 可 以 减少 潜在 的 误差 范围 。 因 此 ， 如 果 每 个 相位 足够 长 并 且 相 位 间 的 非 重生 量 
足够 大 ， 则 能 保证 系统 正确 操作 。 








图 A-11-4 具有 交替 锁 存 器 的 双向 时 钟 控制 方法 ， 表 明了 系统 如 何在 两 个 时 钟 相 位 上 工作 。 
锁 存 器 的 输出 在 与 C 输 入 相反 的 相位 上 是 稳定 的 。 因 此 ， 第 一 个 组 合 模块 输入 
在 @2 期 间 具 有 稳定 的 输入 ， 并 且 其 输出 在 @2 时 钟 锁 存 。 第 二 个 〈 最 右边 ) 组 
合 模块 以 相反 的 方式 运行 ,在 B1 期 间 具 有 稳定 的 输入 。 因 此 ， 通 过 组 合 块 的 延 
时 确定 了 各 个 时 钟 必 须 有 效 的 最 短 时 间 。 非 重合 周期 的 大 小 由 最 大 时 钟 扭 斜 和 各 
逻辑 块 的 最 小 延 时 决定 


A.11.2 异步 输入 和 同步 器 


通过 使 用 单个 时 钟 或 双 相 时 钟 ， 如 果 时 钟 扭 斜 问题 得 到 了 解决 ， 就 可 以 消除 竞争 现象 。 
然而 ， 使 用 单个 时 钟 支持 整个 系统 功能 且 仍然 保持 很 小 的 时 钟 扭 斜 是 不 切实 际 的 。 即 使 CPU 
可 能 使 用 单个 时 钟 ，IO 设备 也 可 能 有 自己 的 时 钟 。 异 步 设 备 可 以 通过 一 系列 握手 操作 与 
CPU 通信 。 要 将 异步 输入 转化 为 可 用 于 改变 系统 状态 的 同步 信号 ， 需 要 使 用 同步 器 ， 其 输入 
是 异步 信号 和 时 钟 ， 其 输出 是 与 输入 时 钟 同步 的 信号 。 

构建 同步 器 的 第 一 步 是 使 用 边沿 触发 的 DD 触发 器 ， 如 图 A-11-5 所 示 , 输入 信号 D 是 异 
步 信 号 。 因 为 使 用 握手 协议 进行 通信 ， 且 信号 将 被 一 直 保 持 有 效 直 到 它 被 确认 ， 所 以 是 在 当 
前 时 钟 还 是 下 一 个 时 钟 上 检测 到 异步 信号 的 有 效 状 态 并 不 重要 。 因 此 ， 除 了 一 个 小 问题 之 
外 ， 这 种 简单 的 结构 已 经 足以 准确 地 对 信和 号 进行 采样 。 


异步 输入 D Q 同步 输出 
Flip-flop 
时 钟 C 


图 A-11-5 由 DD 触发 器 构建 的 同步 器 ， 用 于 采样 异步 信号 以 产生 与 时 钟 同步 的 输出 。 这 个 
“同步 器 ”无 法 正常 工作 


问题 在 于 会 出 现 亚 稳 态 的 情况 。 假 设 当时 钟 边沿 到 达 时 ， 异 步 。 | 亚 稳 态 ， 信 和 号 在 建立 时 间 
祖 号 在 高 电 平和 低 电 平 之 间 振荡 。 显 然 ， 此 时 就 难以 判断 信号 的 高 “| 和 保持 时 间 内 不 稳定 时 被 
电 平 还 是 低 电 平 被 锁 存 。 这 个 问题 可 以 先 被 搁置 ， 然 而 更 糟 的 是 :| 采样， 号 到 条 样 值 落 在 高 
当 采样 的 信号 在 建立 时 间 和 保持 时 间 内 不 稳定 时 ， 触 发 器 可 能 进入 | Aa 
亚 稳 态 。 在 这 种 状态 下 ， 输 出 将 不 具有 合法 的 高 值 或 低 值 ， 而 是 介 

乎 二 者 之 间 ， 处 于 一 种 不 确定 状态 。 此 外 ， 触 发 器 不 能 保证 在 有 限 “| 同步 失败 触发 器 进入 王 
的 时 间 内 退出 该 状态 。 一 些 逻辑 块 看 到 的 触发 器 的 输出 可 能 为 0， | 入 态 ， 和 学 到 读 取 甬 发 器 给 
而 其 他 逻辑 块 看 到 的 可 能 为 1。 这 种 情况 被 称 为 同步 失败 。 aaa: 

在 同步 系统 中 ， 通 过 确保 始终 满足 触发 器 或 锁 存 器 的 建立 时 间 | 是 ， 交情 况 。 

和 保持 时 间 ， 可 以 避免 同步 失败 问题 ， 但 是 当 输入 是 异步 时 ， 则 无 

法 避免 了 。 这 种 情况 下 ， 唯 一 可 能 的 解决 方案 是 在 查看 触发 器 的 输出 之 前 等 待 足够 长 的 时 间 
以 确保 其 输出 稳定 或 已 退出 亚 稳 态 。 但 究竟 要 等 多 久 呢 ? 由 于 触发 器 处 于 亚 稳 态 的 概率 呈 指 
数 级 下 降 ， 因 此 在 很 短 的 时 间 内 ， 触 发 器 处 于 亚 稳 态 的 概率 就 非常 低 。 但 是 ， 概 率 永远 不 会 
变 成 0! 因此 设计 人 员 等 待 的 时 间 足 够 长 的 话 ， 同 步 失败 的 概率 就 会 非常 低 ， 下 一 次 失败 可 
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能 是 数 年 甚至 数 千年 之 后 了 。 

对 于 大 多 数 触发 器 设计 ， 等 待 时间 会 比 建立 时 间 设置 得 长 几 倍 ， 从 而 使 同步 失败 的 概率 
非常 低 。 如 果 时 钟 周 期 长 于 潜在 的 亚 稳 态 周期 (很 可 能 )， 则 可 以 使 用 两 个 D 触发 器 构建 一 
个 安全 的 同步 器 ， 如 图 A-11-6 所 示 。 如 果 读 者 有 兴趣 了 解 有 关 这 些 问 题 的 更 多 信息 ， 请 进 
一 步 查 阅 参 考 文献 。 


异步 输入 
时 钟 





图 A-11-6 ”如 果 亚 稳 态 周期 小 于 时 钟 周期 ， 则 此 同步 器 将 正常 工作 。 虽 然 第 一 个 触发 器 的 输 
出 可 能 是 亚 稳 态 的 ， 但 是 在 第 二 个 时 钟 之 前 ， 任 何其 他 逻辑 元 件 都 不 会 看 到 它 。 
当 第 二 个 时 钟 到 来 时 ， 第 二 个 D 触发 器 对 信和 号 进行 采样 ， 此 时 该 信号 不 应 再 处 
于 亚 稳 态 





自我 检测 ”假设 我 们 的 设计 具有 非常 大 的 时 钟 扭 斜 ， 比 寄存 器 的 传 “| 传播 时 间 : 触发 器 的 给 入 
播 时 间 还 长 。 对 于 该 设计 ， 于 和 生 生生 以 竹中 各 流入 ， 从 而 保证 浊 辑 的 ri 
和 
ER 部 使 时 钙 扭 科 很 大 如 果 时 名 足够 慢 的 活 ， 信和 号 也 总 是 能 正常 传播 所 以 该 设计 能 正 
常 工作 。 
b. 不 可 以 ， 因为 可 能 有 这 样 一 种 情况 : 对 于 同一 个 时 钟 边沿 ， 两 个 寄存 器 看 到 的 时 间 相差 足够 
大 ， 以 至 于 在 同一 个 时 钟 边沿 ， 关中 人 村 全 主人 入 机 为 ”个 才 存 梳 已 被 能 和， 有 输出 已 经 
传播 出 去 了 。 


A.12 现场 可 编程 设备 


现场 可 编程 设备 : 一 种 包 


在 定制 或 半 定 制 芯片 中 ， 设 计 人 员 可 以 利用 底层 结构 的 灵活 性 | 全 纪 人 到 各 的 集训 电路 
来 轻松 实现 组 合 或 时 序 罗 辑 。 对 于 不 想 使 用 定制 或 半 定 制 IC 的 设 | 和 了 六 本 全 人 


计 人 员 来 说 ， 如 何 利用 可 用 的 高 i 
定制 或 半 定 制 IC 之 外 ,时序 和 组 合 逻 辑 设计 的 最 常用 组 件 是 现场 ”| 可 编程 逻辑 设备 : 一 种 包 
可 编程 设备 (FPD)。FPD 是 包含 组 合 逻 辑 的 集成 电路 ， ER 
可 由 终端 用 户 配置 的 存储 器 设备 。 ei 
FPD 通常 分 为 两 大 阵营 : 可 编程 逻辑 设备 (PLD)， 它 是 纯粹 的 
组 合 逻 辑 ; 现场 可 编程 门 阵列 (FPGA)， 它 提供 组 合 逻 辑 和 触发 器 。 
PLD 有 两 种 形式 : 简单 PLD (SPLD)， 通 常 是 PLA 或 可 编程 阵列 
逻辑 (PAL); 复杂 PLD ， 人 允许 多 个 逻辑 块 以 及 块 之 间 的 可 配置 互联 。 
当 谈 到 PLD 中 的 PLA 时 ， 指 的 是 具有 用 户 可 编程 与 阵列 和 或 阵列 
的 PLA。PAL 与 PLA 类 似 ， 除 了 它 的 或 阵列 是 固定 的 以 外 。 
在 讨论 FPGA 之 前 ， 讨 论 如 何 配置 FPD 很 有 帮助 。 配 置 本 质 
一 个 关于 在 何 处 建立 或 断 开 连接 的 问题 。 门 和 寄存 器 结构 是 静 
态 的 ,但 是 连接 是 可 配置 的 。 注 意 ， 通 过 配置 连接 ， 用 户 可 以 决定 
实现 什么 逻辑 功能 。 考 虑 一 个 可 配置 的 PLA : 通过 确定 连接 在 与 


现场 可 编程 门 阵列 : 一 
可 配置 的 集成 电路 ， 包 括 
组 合 远 辑 和 触发 器 。 


简单 可 编程 逻辑 设备 : 可 
编程 远 辑 设备 ， 通 常 包含 
单个 PAL 或 PLA。 





可 编程 阵列 逻辑 : 包含 一 
个 可 编程 与 阵列 和 固定 的 
或 阵列 
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阵列 和 或 阵列 中 的 位 置 ， 用 户 可 以 指定 在 PLA 中 运算 的 逻辑 功能 。 | 反 熔 断 ， 集成 电路 中 的 一 
FPD 中 的 连接 是 永久 性 的 或 可 重新 配置 的 。 永 久 连 接 涉及 在 两 根 连 | 种 结构 ， 当 对 其 编程 后 ， 
线 之 间 建 立 或 破坏 连接 。 目 前 的 FPLD 都 使 用 反 熔 断 技术 ， 允 许 在 | 和 让 
编程 时 建立 连接 ， 然 后 永久 保持 连接 。 配 置 CMOS FPLD 的 另 一 种 

方法 是 通过 SRAM。 上 电 时 下 载 配 置信 息 到 SRAM， 其 内 容 控制 开 i 
关 的 设置 ， 进 而 确定 连接 的 金属 线 。SRAM 控制 的 优点 在 于 可 以 通 | 各 中， 单元 对 应 的 名 字 称 
过 改变 SRAM 的 内 容 来 重新 配置 FPD。 基 于 SRAM 控制 的 缺点 有 ”| 为 LUT， 因 为 它们 由 少量 
两 个 : 配置 是 易 失 性 的 ， 必 须 在 上 电 时 重新 加 载 ; 并 且 将 有 源 晶体 “| 多 和 辑 和 RAM 组 成。 
管用 于 开关 会 略微 增加 这 种 连接 的 电阻 。 

FPGA 包括 逻辑 和 存储 设备 ， 通 常 采 用 二 维 阵 列 结 构 ， 其 中 划分 行 和 列 的 通道 用 于 阵列 
单元 之 间 的 全 局 互 连 。 每 个 单元 都 是 门 和 触发 器 的 组 合 ， 可 以 对 其 进行 编程 以 执行 某 些 特定 
功能 。 因 为 它们 基本 上 都 是 小 型 可 编程 RAM， 所 以 也 被 称 为 查找 表 (LUT)。 更 新 的 FPGA 
包含 更 复杂 的 构建 模块 ， 例 如 加 法 器 和 可 用 于 构建 寄存 器 堆 的 RAM 模块 。 有 些 FPGA 甚至 
包含 64 位 RISC-V 内 核 ! 

除了 对 每 个 单元 进行 编程 以 执行 特定 功能 之 外 ， 单 元 之 间 的 互 连 也 是 可 编程 的 ， 这 使 得 
具有 数 百 个 模块 和 数 十 万 个 门 的 现代 FPGA 可 用 于 复杂 的 逻辑 功能 。 互 连 是 定制 芯片 的 主要 
挑战 ， 对 于 FPGA 来 说 更 是 如 此 ， 因 为 阵列 单元 不 代表 结构 化 设计 分 解 后 的 最 小 单位 。 在 许 
多 FPGA 中 ，90% 的 区 域 用 于 互 连 ， 只 有 10% 用 于 逻辑 和 存储 模块 。 

正如 无 法 在 没有 CAD 工具 的 情况 下 设计 定制 或 半 定 制 芯 片 一 样 ，FPD 同样 需要 使 用 
CAD 工具 。 目 前 已 开发 出 针对 FPGA 的 逻辑 综合 工具 ， 帮 助 从 结构 和 行为 Verilog 中 使 用 
FPGA 生成 系统 。 


A.13 ”本章 小 结 
本 附录 介绍 了 逻辑 设计 的 基础 知识 。 如 果 你 已 经 消化 了 本 附录 中 的 内 容 ， 那 么 深入 阅读 
第 4 章 和 第 5 章 ， 这 两 部 分 都 广泛 使 用 了 本 附录 中 讨论 的 概念 。 


拓展 阅读 
有 许多 关于 逻辑 设计 的 好 书 。 以 下 是 一 些 参考 。 


Ciletti M. D. [2002]. Advanced Digital Design with the Verilog HDL, Englewood 
Cliffs, NJ: Prentice Hall. 


全 面 介 绍 使 用 Verilog 进行 逻辑 设计 的 书 。 
Katz, R. H. [2004]. Modern Logic Design, 2nd ed., Reading, MA: Addison-Wesley. 
关于 逻辑 设计 的 一 本 通 识 书 。 


Wakerly, J. F. [2000]. Digital Design: Principles and Practices, 3rd ed., Englewood 
Cliffs, NJ: Prentice Hall. 


关于 逻辑 设计 的 一 本 通 识 书 。 
A.14 练习 
A.1 [10]<A.2> 除 了 在 本 章 中 讨论 的 基本 定理 之 外 ， 还 有 两 个 重要 的 定理 ， 称 为 德 摩根 定律 : 





A.2 


A.4 


A.12 
A.13 


A.14 
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用 真 值 表 证 明 德 摩根 定律 : 
EA :lB L.A A+B 
Po 0 i a 

0 1 | | a a 

1 0 Q "| | 0 1 1 

1 / 0 | 0 | 0 0 











[15 ] <A.2 > 使 用 德 摩根 定律 和 A.2 节 所 示 的 定理 ,证 明 A.2.2 节 例 题 中 关于 EE 的 两 个 等 式 是 等 
价 的 。 

[10] <A.2> 证 明 , 对 有 nn 个 输入 的 函数 ， 其 对 应 的 真 值 表 中 有 2” 项 。 

[ 10 ] <A.2 > 逻辑 函数 异 或 具有 多 种 功能 (包括 用 于 加 法 器 和 计算 奇偶 校 验 )。 只 有 当 其 中 一 个 
输入 为 真 时 ， 二 输入 异 或 函数 的 输出 才 为 真 。 给 出 二 输入 异 或 函数 的 真 值 表 ， 并 使 用 与 门 、 
或 门 和 反 相 器 实现 此 函数 。 

[15 ] <A.2 > 通过 使 用 二 输入 或 非 门 实现 与 、 或 、 非 功能 ,证 明 利 用 或 非 门 可 以 实现 各 种 逻辑 
功能 。 

[15 ] <A.2> 通过 使 用 二 输入 与 非 门 实现 与 、 或 、 非 功能 ， 证 明 利用 与 非 门 可 以 实现 各 种 逻辑 
功能 。 

[ 10 ] <A.2, A.3 > 构造 四 输入 奇 校 验 函 数 的 真 值 表 (有 关 奇 偶 校 验 的 说 明 ， 请 参阅 A.9.3 节 )。 
[ 10 ] <A.2,A.3 > 使 用 带 有 反 向 输入 和 输出 的 与 门 和 或 门 实现 四 输入 的 奇 校 验 函数 。 

[10] <A.2,A.3> 使 用 PLA 实现 四 输入 的 奇 校 验 函数 。 

[ 15 ] <A.2, A.3 > 通过 使 用 多 选 器 构建 与 非 门 或 者 或 非 门 )， 证 明 二 输入 的 多 选 器 同样 可 以 实 
现 各 种 逻辑 功能 。 

[5 ] <4.2, A.2, A.3> 假 设 X 由 3 位 组 成 ， 分 别 为 x2、x1、x0， 写 出 下 面 4 个 逻辑 表达 式 : 

e 下 中 只 有 一 个 0。 

e XX 中 有 偶数 个 0。 

e 当 针 被 当 作 无 符号 二 进 制 数 时 小 于 4。 

e 当 XX 被 当 作 有 符号 数 ( 补 码 ) 时 为 负 。 

[5 ] <4.2, A.2, A.3 > 使 用 PLA 实现 上 题 中 的 四 个 逻辑 表达 式 。 

[5] <4.2,A.2,A.3> 假 设 X 由 3 位 组 成 ,分别 为 2、xl、x0, 了 由 3 位 组 成 ,分 别 为 yl1、y2、 
上 3， 写 出 下 面 3 个 逻辑 表达 式 : 

e 当 X 和 了 被 当 作 无 符号 二 进 制 数 时 ，X< Y。 

e 当 和 和 了 被 当 作 有 符号 二 进 制 数 ( 补 码 ) 时 ，X< Y。 

® X=7 了 。 

[5] <A.2, A.3 > 实现 具有 两 个 数据 输入 (4 和 B)、 两 个 数据 输出 (C 和 D) 和 控制 输入 (5) 的 
开关 网 络 。 如 果 5S = 1， 则 网 络 为 直通 模式 ， 且 C = 4,D = 8。 如 果 8= 0， 则 网 络 为 交叉 
模式 , 且 C= B,D= 4。 

[15] <A.2, A.3> 由 A.3.3 节 中 EE 的 “ 合 取 范式 ”推导 出 “ 析 取 范式 ”形式 ,需要 用 到 德 摩根 
定律 。 

[30] <A.2, A.3> 设 计 一 个 算法 ， 对 于 由 与 门 : 或 门 和 非 门 组 成 的 任意 逻辑 表达 式 ， 可 给 出 其 
“ 积 的 和 ”表示 。 算 法 应 该 是 递归 的 ， 且 在 过 程 中 不 能 产生 真 值 表 。 

[5] <A.2,A.3 > 给 出 一 个 多 选 器 的 真 值 表 (输入 为 4.B 和 5S， 输出 为 C)， 可 以 使 用 无 关 项 简 
化 真 值 表 。 
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A.18 


A.19 
A.20 
A.21 


A.22 


A.23 
A.24 
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[5] <A.3> 下面 的 Verilog 模块 实现 了 什么 功能 : 


module FUNGL 10; Tl1, Ss oub)}s 
input TO Tls 
input S; 
output out; 
GU = SS Ll TO0 
endmodule 


module FUNC2 (out,ctl,clk,reset); 
output [7:0] out; 
input ctls clk, reset: 
reg [72:01 out 
always @(posedge clk) 
if (reset) begin 
out. = 8b0 3 
end 
else if (ct1) begin 
out <= out + 1; 
end 
else begin 
out <= out - 1; 
end 
endmodule 


[5] <A.4> 根 据 A.8.1 节 D 触发 器 的 Verilog 代码 ， 写 出 D 锁 存 器 的 Verilog 代码 。 

[ 10 ] <A.3,A.4> 写 出 2-4 译 码 器 (与 /或 编码 器 ) 的 Verilog 模块 实现 。 

[ 10 ] <A.3,A.4> 根据 下 面 给 出 的 累加 器 逻辑 图 ， 写 出 它 的 Verilog 模块 实现 。 假 设 使 用 正 边沿 
触发 寄存 器 和 异步 Rst。 


im“ 守 





Out 


[ 20 ] <3.3, A.4, A.5 > 3.3 节 介 绍 了 乘法 器 的 基本 操作 及 其 实现 。 这 种 实现 的 基本 单元 是 移 位 加 
法 单元 。 给 出 此 单元 的 Verilog 实现 ， 并 说 明 如 何 使 用 此 单元 构建 32 位 乘法 器 。 

[ 20 ] < 3.3,A.4,A.5 > 根据 上 一 题 ， 实 现 一 个 无 符号 数 的 除法 器 。 

[15] <A.5 > ALU 支持 仅 使 用 加 法 器 的 符号 位 设置 小 于 (s1t)。 用 该 方法 比较 71。 和 6io。 简 单 
起 见 ， 将 二 进 制 表 示 限 制 为 4 位 : 1001: 和 0110:。 


1001: - 0110: = 10012+ 1010, = 0011， 
这 个 结果 表明 -7 > 6， 这 显然 是 错误 的 。 因 此 ， 判 断 时 必须 考虑 溢出 。 修 改 图 A-5-10 中 的 1 


A.26 


A.29 


A.30 


A.31 


A.32 
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位 ALU 以 正确 处 理 s1t。 可 在 此 图 的 副本 上 进行 更 改 以 节省 时 间 。 
[ 20 ] < A.6 > 做 加 法 时 检查 溢出 的 简单 方法 是 查看 最 高 有 效 位 的 CarryIn 是 否 与 最 高 有 效 位 的 
CarryOut 不 同 。 证 明 该 方法 与 图 3-2 所 示 的 相同 。 
[5 ] <A.6 > 使 用 新 表示 法 改写 16 位 加 法 器 的 超前 进位 逻辑 公式 。 首 先 ， 使 用 加 法 器 各 个 位 的 
CarryIn 信号 的 名 称 。 也 就 是 说 ， 使 用 c4，c8，c12，… 人 代替 C1，C2，C3，… 男 外 ，P; ; 表示 
i 位 到 j 位 的 传播 信号 ，Gi) 表示 i 位 到 j 位 的 生成 信和 号。 例如， 公式 

C2=G1+(Pl*: G0)+(Pl1: PO: c0) 
可 被 改写 为 

c8=G74+(P74* Gao )+(P74.，P3o c0) 
这 种 更 通用 的 表示 法 在 创建 位 数 更 宽 的 加 法 器 时 很 有 用 。 
[15 ] <A.6> 使 用 上 题 中 的 新 表示 法 写 出 64 位 加 法 器 的 超前 进位 逻辑 表达 式 ， 以 16 位 加 法 器 
作为 构建 模块 。 在 你 的 解答 中 给 出 类 似 于 图 A-6-3 的 图 。 
[10] <A.6> 下 面 计 算 加 法 器 的 相对 性 能 。 假 设 对 应 于 某 个 公式 的 硬件 运行 时 间 为 一 个 时 间 单 
位 7， 该 公式 只 包含 或 运算 或 与 运算 ， 例 如 A.6.2 节 的 pi 和 gi 的 公式 。 由 若干 个 与 项 进行 或 
运算 构成 的 公式 运行 时 间 为 27， 例 如 A.6.2 节 的 cl1、c2、c3 和 c4。 该 时 间 包 括 需要 了 时 间 
产生 与 项 ， 以 及 另 一 个 了 时 间 来 生成 或 运算 的 结果 。 分 别 计算 4 位 行 波 进 位 加 法 器 和 超前 进 
位 加 法 器 的 运算 次 数 和 性 能 的 比 。 如 果 公 式 中 的 项 由 其 他 公式 定义 ， 则 为 这 些 中 间 公 式 增加 
适当 的 时 延 ， 并 递归 地 继续 ， 直 到 加 法 器 的 实际 输入 位 用 于 公式 中 。 标 记 每 个 加 法 器 的 计算 
时 延 ， 并 标明 最 坏 情况 时 延 的 路 径 。 
[ 15 ] <A.6 > 本 题 与 上 题 类 似 ,但 这 次 只 计算 使 用 行 波 进位 的 16 位 加 法 器 的 相对 速度 ,4 位 超 
前 进位 组 组 成 行 波 进位 ， 超 前 进位 使 用 A.6.2 节 的 机 制 。 
[15 ] <A.6> 本 题 与 上 两 题 类 似 ， 但 这 次 只 计算 使 用 行 波 进位 的 64 位 加 法 器 的 相对 速度 ,4 位 
超前 进位 组 组 成 行 波 进位 ，16 位 超前 进位 组 组 成 行 波 进位 ， 超 前 进位 使 用 A.27 中 的 机 制 。 
[10 ] <A.6> 我 们 可 以 将 加 法 器 视 为 可 以 将 三 个 输入 〈ai, b;, ci) 相 加 并 产生 两 个 输出 (s, ci ) 
的 硬件 设备 (而 不 是 将 两 个 数 相 加 并 将 进位 连接 在 一 起 的 设备 )。 当 将 两 个 数 相 加 时 ， 该 想法 
可 能 没什么 作用 。 但 当 对 两 个 以 上 操作 数 进行 相 加 时 ， 就 可 以 降低 进位 的 开销 。 这 个 想法 是 
构造 两 个 独立 的 和 ， 称 为 5S' (和 ) 和 C' (进位 )。 在 过 程 的 末尾 ， 需 要 使 用 普通 加 法 器 将 C' 和 
S' 相 加 。 这 种 将 进位 传播 延迟 到 加 法 最 后 阶段 的 技术 称 为 进位 保留 加 法 。 图 A-14-1 右 下 方 的 
方 框图 给 出 了 该 结构 ， 其 中 两 级 的 进位 保留 加 法 器 通过 一 个 普通 加 法 器 连接 在 一 起 。 
对 于 4 个 16 位 数 的 加 法 和 运算， 分别 计算 利用 完全 超前 进位 加 法 器 和 带 有 超前 进位 加 法 器 (用 
于 形成 最 终 累加 和 ) 的 进位 保留 加 法 器 的 时 延 。( 时 间 单 位 了 与 A.28 中 的 相同 。) 
[20 ] <A.6 > 在 计算 机 中 最 可 能 一 次 对 多 个 数 相 加 的 情况 是 ， 试 图 在 一 个 时 钟 周 期 内 通过 使 用 
许多 加 法 器 将 多 个 数 相 加 来 加 快 乘法 操作 的 速度 。 与 第 3 章 中 的 乘法 算法 相 比 ， 带 有 许多 加 
法 器 的 进位 保留 机 制 可 以 快 10 倍 以 上 。 本 题 对 使 用 组 合 逻 辑 乘法 器 计算 两 个 16 位 正 数 乘法 
的 开销 和 速度 进行 评估 。 假 设 有 16 个 中 间 项 M15，M14，…，M0， 称 为 部 分 积 ， 它 们 分 别 
表示 被 乘 数 与 乘 数 的 每 一 位 (m15，ml14，…，mo0 ) 与 运算 的 结果 。 我 们 的 想法 是 使 用 进位 
保留 加 法 器 将 n 个 操作 数 减 少 到 2n / 3 并 行 组 ， 每 组 3 个 ， 并 重复 执行 此 操作 ， 直 到 获得 两 
个 大 数 ， 最 后 用 传统 加 法 器 对 二 者 相 加 。 
首先 ， 根 据 图 A-14-1 右 侧 所 示 ， 画 出 16 位 进位 保留 加 法 器 的 结构 组 织 ， 用 来 实现 16 个 部 分 积 
相 加 。 然 后 计算 将 这 16 个 数 相 加 的 时 延 。 将 该 时 间 与 第 3 章 中 的 迭代 乘法 方案 进行 比较 ， 但 
仅 假设 使 用 的 是 具有 完全 超前 进位 的 16 位 加 法 器 进行 16 次 迭代 ， 其 速度 在 A.29 中 已 计算 过 。 
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图 A-14-1 4 个 4 位 数 加 法 的 传统 行 波 进位 和 进位 保留 加 法 器 。 加 法 器 细节 参见 图 的 左 侧 ， 


A.33 


A.34 


A.35 


A.37 


单独 信号 用 小 写 表 示 ， 相 应 的 高 层 模 块 在 图 右 ， 组 合 信 号 用 大 写 表 示 。 注 意 ，4 
个 nn 位 数 的 和 可 以 取 n+2 位 


[ 10 ] <A.6 > 有 时 我 们 想 要 对 一 组 数 进行 相 加 。 假 设 用 户 想 使 用 1 位 全 加 器 对 4 个 4 位 数 (4， 
8B,E,F) 进行 相 加 。 现 在 先 暂 时 忽略 超前 进位 。 将 1 位 加 法 器 按 图 A-14-1 上 方 的 组 织 形式 
连接 起 来 。 传 统 组 织 形 式 下 面 是 一 个 完全 加 法 器 的 全 新 组 织 形 式 。 尝 试 使 用 这 两 种 组 织 形式 
对 4 个 数 做 加 法 ， 并 确保 能 得 到 相同 结果 。 

[5] <A.6> 首 先 ， 如 图 A-14-1 所 示 ， 画 出 16 位 进位 保留 加 法 器 的 组 织 结构 ， 用 来 实现 16 个 
部 分 积 相 加 。 假 设 通过 一 个 1 位 加 法 器 的 时 间 延 迟 是 27。 计 算 上 下 两 个 组 织 结构 对 4 个 4 位 
数 做 加 法 的 时 间 。 

[5] <A.8> 通 常 ， 你 会 期 望 得 到 一 个 时 序 图 ， 其 中 包含 对 数据 输入 D 和 时 钟 输入 C 发 生 的 变 
化 的 描述 (分 别 如 图 A-8-3 和 图 A-8-6 所 示 )，D 锁 存 器 和 D 触发 器 的 输出 波形 (2) 之 间 会 
有 差异 。 用 一 两 句 话 描述 二 者 输出 波形 之 间 不 存在 任何 差异 的 情况 (例如 ， 输 入 需要 满足 的 
性 质 )。 

[5] <A.8> 图 A-8-8 说 明了 RISC-V 数据 通路 的 寄存 器 堆 的 实现 。 假 设 要 构建 一 个 新 的 寄存 器 
堆 ， 但 只 有 两 个 寄存 器 和 一 个 读 端口 ， 并 且 每 个 寄存 器 只 能 存储 2 位 数据 。 重 画图 A-8-8， 
使 图 中 的 每 条 线 仅 对 应 1 位 数据 (与 图 A-8-8 中 的 图 不 同 ， 其 中 一 些 线 为 5 位 ， 一 些 线 为 32 
位 )。 使 用 D 触发 器 重 画 寄存 器 。 无 须 描绘 如 何 实现 D 触发 器 或 多 选 器 。 

[ 10 ] < A.10 > 朋友 希望 你 建立 一 个 “电子 眼 ” 用 作 仿 安全 设备 。 该 装置 由 连续 排列 的 三 个 灯 
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组 成 ， 由 输出 Left、Middle 和 Right 控制 ， 如 果 某 个 信号 有 效 ， 则 相应 的 指示 灯 应 该 打开 。 
一 次 惧 0 且 灯 光 从 左 向 右 “ 移 动 "， 然 后 再 从 右 向 左 ， 从 而 吓 跑 相信 设备 正在 监视 
其 活动 的 小 偷 。 绘 制 用 于 控制 电子 眼 的 有 限 状 态 自 动机 的 图 形 表示 。 请 注意 ,“ 电 子 眼 ” 的 移 
动 速度 将 由 时 名 速度 (不 应 太 大 ) 控制 ， 并 且 没 有 输入 信号。 









A.38 [10] <A.10 > 给 上 题 构造 的 有 限 状 态 自 动机 分 配 状态 编码 ， 并 为 每 个 输出 写 出 一 组 逻辑 表达 
式 ; 和 包含 下 一 状态 位 。 
A.39 [15] <A.2,A.8,A.10> 使 用 3 个 D 和 触发 器 和 知 干 逻辑 门 构建 一 个 3 位 计数 器 。 输 入 应 包括 一 个 
将 计数 器 复位 为 0 的 信号 reset， 以 及 一 个 增加 计数 器 的 信号 inc。 输 出 是 计数 器 的 值 。 当 计 
数 器 的 值 为 7 并 且 继 续 增 加 时 ， 重 新 归 零 。 
A.40 [20]<A.10> 格雷 码 是 一 系列 二 进 制 数 ， 其 特性 是 序列 中 相 邻 的 编码 最 多 只 有 一 位 不 同 。 例 
如 ， 这 是 一 个 3 位 二 进 制 格雷 码 序列 : 000，001，011，010，110，111，101，100。 使 用 3 
个 DD 触发 器 和 1 个 PLA， 构造 一 个 3 位 格雷 码 计数 器 ， 它 有 两 个 输入 : reset， 将 计数 器 设置 
为 000 ;inc， 使 计数 器 转 到 序列 中 的 下 一 个 值 。 请 注意 ， 该 编码 序列 是 循环 的 ， 因 此 序列 中 
100 的 下 一 个 值 为 000。 
A.41 [25 ] <A.10> 我们 希望 在 A.10 节 交 通 灯 的 示例 中 添加 黄 灯 。 通 过 将 时 钟 更 改 为 以 0.25Hz (4 
秒 的 时 钟 周期 时 间 ， 这 是 黄 灯 的 持续 时 间 ) 运行 来 完成 此 操作 。 为 了 防止 绿灯 和 红 灯 循 环 太 
快 ， 我 们 添加 了 一 个 30 秒 的 计时 器 。 计 时 器 有 一 个 输入 ， 称 为 TimerReset， 该 信号 用 于 重新 
启动 计时 器 ; 还 有 一 个 输出 ， 称 为 TimerSignal， 表 示 已 经 过 去 30 秒 。 此 外 ,为 了 将 黄 灯 包 
含 进 去 ， 必 须 重新 定 : 义 交通 信号 。 我 们 通过 为 每 个 灯 定义 两 个 输出 信号 来 实现 ， 分 别 为 green 
和 yellow。 如 果 输 出 NSgreen 有 效 ， 则 绿灯 亮 ; 如 果 输 出 NSyellow 有 效 ， 黄 灯亮 。 如 果 两 个 
信号 均 关 闭 ， 则 红 灯 亮 。 不 要 同时 将 green 和 yellow 信号 置 为 有 效 ， 否 则 美国 司机 肯定 会 感 
到 困惑 ， 即 使 欧洲 司机 明白 这 其 中 的 含义 ! 为 这 个 改进 的 控制 器 绘制 有 限 状 态 自 动机 的 图 形 
表示 。 状 态 的 名 称 不 要 和 输出 信号 相同 。 
A.42 [15 ] <A.10 > 写 出 上 题 中 描述 的 交通 灯 控 制 器 的 下 一 状态 和 输出 函数 表 。 
A.43 [15 ] <A.2,A.10 > 为 交通 灯 示 例 中 的 状态 分 配 状 态 编 号 ， 并 使 用 上 题 的 表格 为 每 个 输出 写 人 一 
组 逻辑 表达 式 ， 包 括 下 一 状态 输 ; 
A.44 [15 ] <A.3,A.10> 使 用 PLA 实现 上 题 的 逻辑 表达 式 。 
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absolute address 绝对 地 址 
函数 时 使 用 的 内 存 地 址 。 

abstraction ”抽象 ”为 实现 复杂 设计 ， 对 计算 机 
系统 的 底层 细节 进行 屏蔽 的 方法 。 

access bit ”被 访问 位 (也 称 为 被 使 用 位 或 引用 位 ) 
页 表 属 性 的 一 个 字段 ， 用 来 实现 LRU (最 
近 最 少 使 用 ) 算法 或 其 他 替换 算法 。 

acronym 缩写 ”单词 首 字 母 组 成 的 字符 串 。 比 
如 ，RAM 是 Random Access Memory ( 随 
机 访问 存储 器 ) 的 缩写 ，CPU 是 Central 
Processing Unit (中 央 处 理 单元 ) 的 缩写 。 

active matrix display 有 源 和 矩阵 显示 器 (也 称 为 
液晶 显示 屏 ) 使 用 晶体 管 来 控制 光 在 每 
个 像素 点 的 传输 。 

address ”地址 ”用 来 描述 在 内 存 中 的 位 置 的 数值 。 

address translation 地址 转换 (也 称 为 地 址 映 
射 ) 将 虚 地 址 映射 到 内 存 访问 的 真实 物 
理 地 址 上 。 

address mode 寻 址 模式 ”通过 对 操作 数 和 地 
址 的 不 同 处 理 来 确定 存储 访问 方式 。 

aliasing 别名 使 用 两 个 不 同 的 地 址 访问 同一 
个 对 象 的 情况 ， 一 般 出 现在 使 用 虚拟 存储 
的 系统 中 。 例 如 ， 在 不 同 的 进程 中 使 用 不 
同 的 虚拟 地 址 访问 相同 物理 页 面 。 

alignment restriction ”对 齐 限 制 ”数据 在 内 存 中 
的 地 址 需 与 自然 边界 对 齐 。 

Amdahl's Law Amdahl 定律 ”对 于 一 种 给 定 的 
改进 ， 其 带 来 的 性 能 提升 受 限 于 这 种 改进 
的 改进 量 。 这 是 收益 递减 规律 的 量化 版 。 

AND 与 “一 种 逻辑 位 操作 。 两 数 相 与 ， 都 为 1 
时 结果 为 1。 

antidependence 反 相 关 (也 称 为 名 字 相关 ) 
由 于 使 用 相同 寄存 器 名 而 带 来 的 指令 之 间 
的 相关 ， 与 真相 关 不 同 ， 可 以 采取 重 命名 
技术 消除 。 

antifuse 反 熔 断 可 编程 集成 电路 中 的 技术 ， 
可 使 得 两 条 线 永久 相连 。 

application binary interface ( ABI) 应 用 程序 二 


访问 单个 变量 或 


语 


表 


进 制 接口 ”指令 系统 中 的 用 户 部 分 ， 加 上 
操作 系统 与 应 用 程序 接口 部 分 。ABI 标准 
用 来 保证 不 同 机 器 间 的 二 进 制 可 移植 性 。 

architectural registers ”体系 结构 寄存 器 ”处理 
器 中 可 见 的 寄存 器 的 指令 系统 ， 例 如 ， 在 
RISC-V 中 ， 有 32 个 整 型 寄存 器 和 32 个 
浮 点 寄存 器 。 

arithmetic intensity 算术 强度 ”程序 中 浮 点 运算 
数量 与 程序 从 主 存 中 访问 的 字 节 数 的 比值 。 

arithmetic logic unit ( ALU) 算术 逻辑 单元 执 
行 加 法 、 减 法 和 通常 的 逻辑 运算 (如 与 和 
或 ) 的 硬件 。 

assembler 汇编 器 将 符号 语言 的 指令 翻译 为 
二 进 制 语言 的 程序 。 

assembler directive 汇编 制导 一 种 告诉 汇编 
程序 如 何 翻译 程序 但 不 产生 机 器 指令 的 操 
作 ， 总 是 以 句号 开始 。 

assembly language 汇编 语言 
进 制 机 器 语言 的 符号 语言 。 

asserted 有 效 信号 为 逻辑 高 或 为 真 。 

asserted signal 有 效 信号 一 个 是 逻辑 高 或 1 
的 信号 。 

backpatching ”回填 在 将 汇编 语言 翻译 为 机 器 
指令 过 程 中 的 一 种 技术 。 汇 编程 序 通 过 扫 
描 一 遍 程 序 为 每 条 指令 建立 一 种 〈 可 能 不 
完整 的 ) 二 进 制 表示 ， 再 返回 填写 之 前 不 
确定 的 标签 。 

basic block ”基本 块 ”不 包含 分 支 指令 (除非 可 能 
在 结尾 )、 不 包含 分 支 指令 目标 指令 或 分 支 
标签 (除非 可 能 在 开头 ) 的 一 段 指令 序列 。 

behavioral specification ”行为 规范 ”描述 一 个 


能 被 翻译 为 二 


数字 系统 如 何 正 常 运作 。 
benchmark 基准 程序 ”一 个 用 于 比较 计算 机 人 性 
能 的 程序 。 


biased notation ” 偏 移 表示 法 ”最 大 的 负数 用 
00…000: 表示 ， 最 大 的 正 数 用 11.…111， 
表示 ，0 一 般 用 10...000; 表示 ， 即 通过 将 
数 加 一 个 偏 移 使 其 具有 非 负 的 表示 形式 。 





binary digit ”二进制 位 ”二进制 数字 之 一 ， 为 0 
或 1， 信 息 的 基本 组 成 。 

bisection bandwidth ” 切 分 带宽 多 处 理 器 中 两 
个 相等 部 分 之 间 的 带宽 。 这 种 测量 表示 多 
处 理 器 的 最 差 拆 分 情况 。 

block ( or line) 块 (或 行 ) 可 出 现 或 不 出 现在 
cache 中 的 信息 的 最 小 单位 。 

blocking assignment 阻塞 赋值 语句 ”在 Verilog 
语言 中 ， 在 执行 下 一 条 语句 前 完成 的 赋值 
语句 。 

branch address table ”分支 地 址 表 (也 称 为 分 支 表 ) 

由 二 选 一 的 指令 序列 的 地 址 构成 的 表 。 

branch-and-link instruction “” 带 链接 的 分 支 指令 
分 支 到 一 个 地 址 ， 同 时 将 下 一 条 指令 的 地 
址 保存 在 寄存 器 (在 RISC-V 中 通常 是 xl 
寄存 器 ) 的 指令 。 

branch not taken or ( untaken branch) 分 支 未 
发 生 跳 转 (或 未 发 生 的 分 支 ) 一 种 分 支 
指令 ， 其 分 支 条 件 不 成 立 ， 程 序 计 数 器 
(PC ) 变 为 分 支 指令 的 下 一 条 指令 的 地 址 。 

branch prediction ”分 支 预测 ”一 种 解决 分 支 冒险 
的 方法 。 它 预测 分 支 的 结果 并 沿 预测 方向 执 
行 ， 而 不 是 等 分 支 结果 确定 后 才 开 始 执行 。 

branch prediction buffer 分 支 预测 缓冲 (也 称 
为 分 支 历史 表 ) 由 分 支 指令 的 低位 部 分 
索引 的 一 小 块 存储 ， 包 含 一 至 多 位 来 表明 
最 近 分 支 是 否 发 生 。 

branch taken ”分支 发 生 跳 转 一 条 分 支 指 令 ， 
其 分 支 条 件 满足 ，PC 变 为 分 支 目 标 地 址 。 
所 有 无 条 件 分 支 指令 都 是 发 生 的 分 支 。 

branch target address “分支 目标 地 址 ”在 一 个 
分 支 指令 中 指定 的 地 址 ， 如 果 分 支 发 生 ， 
该 地 址 成 为 新 的 PC 的 值 。 在 RISC-V 体 
系 结构 中 ， 分 支 目 标 地 址 为 该 指令 的 立即 
数字 段 ， 与 分 支 指令 的 地 址 的 和 。 

branch target buffer 分 支 目 标 缓冲 一 种 用 
来 缓存 分 支 目 标 PC 或 分 支 目标 指令 的 结 
构 。 通 常 是 一 个 带 标签 的 cache， 比 简单 
的 预测 缓冲 消耗 更 多 硬件 。 


bus 总 线 在 逻辑 设计 中 ， 被 共同 看 作 一 个 逻 
辑 信 号 的 一 组 数据 线 。 或 者 ， 一 组 有 多 个 
源 和 用 途 的 共享 线 。 

cache memory 缓存 一 种 小 而 快 的 存储 器 ， 
作为 大 而 慢 存 储 器 的 缓冲 。 
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cache miss ”缓存 失效 ”由 于 数据 不 在 缓存 中 ， 
而 无 法 填充 缓存 的 数据 请 求 。 

callee 被 调用 者 ”根据 调用 者 提供 的 参数 ， 执 
行 一 系列 已 经 存储 的 指令 。 然 后 控制 返回 
到 调用 者 的 过 程 。 

callee-saved register 被 调用 者 保存 寄存 器 ”一 
种 由 程序 保存 的 寄存 器 ， 进 行 过 程 调用 。 

caller 调用 者 ”调用 一 个 过 程 并 提供 必要 参数 
值 的 程序 。 

caller-saved register 调用 者 保存 寄存 器 ”调用 
者 程序 保存 的 寄存 器 。 由 被 调用 的 程序 保 
存 的 寄存 器 。 

capacity miss ”容量 失效 一 种 缓存 失效 ， 因 为 
即使 是 全 相 联 也 不 能 包含 为 满足 请 求 所 需 
要 的 所 有 块 。 

central processing unit ( CPU) 中 央 处 理 单元 
(也 称 为 中 央 处 理 器 或 处 理 器 ) 计算 机 中 
包含 数据 通路 和 控制 的 活路 部分， 做 加 
法 、 比 较 、 向 IO 设备 发 信号 使 其 激活 等 。 

clock cycle ”时 钟 周期 数 (也 称 为 滴答 数 、 时 钟 
滴答 数 、 时 钟 数 、 周 期 数 ) 一 个 时 钟 周 
期 的 时 间 ， 通 常 是 处 理 器 时 钟 。 

clock cycles per instruction ( CPI) 每 条 指令 时 
钟 周 期 数 ”执行 一 个 程序 或 程序 片段 ， 平 
均 每 条 指令 的 时 钟 周期 数 。 

clock period 时钟 周 期 长 度 一 个 时 钟 周 期 的 
长 度 。 

clock skew 时钟 扭 斜 ”两 个 状态 元 素 看 到 时 钟 
沿 的 时 间 之 间 的 绝对 时 间 差 。 

clocking methodology 时钟 同步 方法 ”用 来 确定 
数据 相对 于 时 钟 何 时 稳定 和 有 效 的 方法 。 

cloud computing 云 计算 ” 指 通过 互联 网 提供 
服务 的 大 量 服务 器 。 一 些 提供 商 出 租 数量 
动态 变化 的 服务 器 作为 实用 程序 。 

cluster 集群 通过 局 域 网 连接 的 一 组 计算 机 ， 
其 作用 等 同 于 一 个 大 型 的 多 处 理 器 。 

clusters ”集群 一 组 通过 IO 接口 与 标准 网 络 
交换 机 连接 而 形成 的 消息 传递 多 处 理 机 。 

coarse-grained multithreading ” 粗 粒 度 多 线程 
硬件 多 线程 的 一 种 形式 ， 上 暗示 仅 在 一 些 重 
要 事件 (如 缓存 缺失 ) 之 后 进行 线程 切换 。 

combinational element 组合 单元 ”一 个 操作 单 
元 ,如 AND 门 或 ALU。 

combinational logic ”组 合 逻 辑 


一 个 逻辑 系统 ， 
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其 模块 不 包含 存储 器 ， 因 此 在 给 定 相 同 输 
入 的 情况 下 计算 出 相同 的 输出 。 

commit unit 提交 单元 ”位 于 动态 流水 线 或 乱 序 
流水 线 中 的 一 个 单元 ， 用 以 决定 何 时 可 以 
安全 地 将 操作 结果 发 至 程序 员 可 见 的 寄存 
器 和 存储 器 。 

compiler 编译 器 将 高 级 语言 语句 翻译 为 汇编 
语言 语句 的 程序 。 

compulsory miss 强制 失效 (也 称 为 冷 启 动 失 
效 ) 第 一 次 访问 从 未 出 现在 cache 中 的 块 
所 引起 的 缓存 失效 。 

conditional branch ”条 件 分 支 指 令 该 指令 测 
试 一 个 值 ， 并 且 人 允许 根据 测试 的 结果 将 控 
制 转移 到 程序 中 的 新 地 址 。 

conflict miss ”冲突 失效 (也 称 为 磁 撞 失效 ) 在 
组 相 联 或 者 直接 映射 cache 中 ， 很 多 块 竞 
争 同一 个 组 导致 的 失效 。 这 种 失效 在 使 用 
相同 大 小 的 全 相 联 cache 中 可 被 消除 。 

context switch 上 下 文 切 换 为 允许 男 一 个 不 
同 的 进程 使 用 处 理 器 ， 改 变 处 理 器 内 部 的 
状态 ， 并 保存 返回 正在 执行 的 进程 所 需要 
的 状态 。 

control 控制 器 ”处 理 器 中 根据 程序 的 指令 ， 控 
制 数据 通路 、 存 储 器 和 IO 设备 的 部 件 。 

control hazard ”控制 冒险 (也 称 为 分 支 冒 险 ) 由 
于 取 到 的 指令 并 不 是 所 需要 的 ， 或 者 指令 
地 址 的 流向 不 是 流水 线 所 预期 的 ， 导 致 正 
确 的 指令 无 法 在 正确 的 时 钟 周 期 内 执行 。 

control signal 控制 信号 决定 多 选 器 的 选择 或 
指示 功能 单元 操作 的 信号 ; 与 数据 信号 相 
比 ， 数 据 信号 包含 功能 单元 所 操作 的 信息 。 

correlating predictor 相关 预测 器 ”结合 特定 分 
支 的 局 部 行为 ， 以 及 一 些 最 近 执 行 的 分 支 
的 行为 的 全 局 信息 的 分 支 预测 器 。 

CPU execution time CPU 执行 时 间 (也 称 为 
CPU 时 间 ) CPU 为 特定 任务 做 计算 的 实 
际 时 间 。 

crossbar network ”交叉 开关 网 络 ”任何 一 个 节 
点 仅 需 一 次 即 可 与 其 他 任意 一 个 节点 通信 
的 网 络 。 

D flip-flop DD 触发 器 ”有 一 个 数据 输入 的 触发 
器 ， 它 在 时 钟 沿 将 输入 信号 的 值 存 人 内 部 
存储 器 。 

data hazard 数据 冒险 (也 称 为 流水 线 数据 冒 





险 ) 因 无 法 提供 指令 执行 所 需 数据 而 导 
致 指令 不 能 在 预期 的 时 钟 周期 内 执行 。 

data race 数据 竞争 ”如 果 来 自 不 同 线程 的 两 
个 内 存 访问 指向 同一 个 地 址 ， 它 们 连续 出 
现 ， 并 且 其 中 至 少 一 个 是 写 操作 ， 那 么 这 
两 个 存储 访问 形成 数据 竞争 。 

data segment 数据 段 UNIX 目标 文件 或 可 执 
行文 件 中 的 一 段 ， 包 含 程序 使 用 的 初始 化 
数据 的 二 进 制 表 示 。 

data transfer instruction ”数据 传送 指令 ”在 存 
储 器 和 寄存 器 之 间 移 动 数据 的 命令 。 

data-level parallelism ”数据 级 并 行 ” 对 相互 独 
立 的 数据 执行 相同 操作 所 获得 的 并 行 。 

datapath 数据 通路 ”处理 器 中 执行 算术 操作 的 
部 件 。 

datapath element 数据 通路 单元 一 个 用 来 
操作 或 保存 处 理 器 中 数据 的 单元 。 在 
RISC-V 的 实现 中 ， 数 据 通 路 单元 包括 指 
令 存 储 器 、 数 据 存储 器 、 寄 存 器 堆 、ALU 
和 加 法 器 。 

deasserted 无 效 信号 为 逻辑 低 或 假 。 

deasserted signal 无 效 信号 一 个 为 逻辑 低 或 
0 的 信号 。 

decoder 译 码 器 一 个 为 有 位 输入 和 2” 个 输 
出 的 逻辑 块 ， 每 种 输入 的 组 合 只 对 应 一 种 
输出 。 

defect 瑕 疫 ” 唱 圆 上 或 者 图 样 化 过 程 中 的 一 个 微 
小 缺陷 ， 包 含 这 个 缺陷 会 导致 芯片 失效 。 

delayed branch ”延迟 转移 ”不管 分 支 条 件 是 否 
成 立 ， 分 支 指 令 之 后 的 那 条 指令 总 被 执行 
的 一 种 分 支 。 

die 晶片 ”从 唱 圆 中 切割 出 来 的 一 个 独立 的 矩 
形 区 域 ， 更 正式 的 叫 法 是 芯片 (chip ) 。 

direct-mapped cache 直接 映射 缓存 一 种 
cache 结构 ， 每 个 内 存 地 址 正好 只 映射 到 
cache 中 的 一 个 位 置 。 

dividend ”被 除数 ”被 除 的 数 。 

divisor 除数 ”去 除 被 除数 的 数 。 

don’t-care term 无 关 项 人 逻辑 函数 的 一 个 元 
素 ， 输 出 与 所 有 输入 的 取 值 无 关 。 无 关 项 
可 以 用 不 同 的 方式 指定 。 

double precision ” 双 精 度 ”以 64 位 双 字 表示 的 
浮 点 值 。 


doubleword 双 字 计算 机 中 男 一 种 自然 的 访 


问 单元 ,通常 是 一 组 64 位 ; 对 应 RISC-V 
体系 结构 的 一 种 寄存 器 的 大 小 。 

dynamic branch prediction ”动态 分 支 预 测 根 
据 运 行 信息 在 运行 时 进行 分 支 预 测 。 

dynamic multiple issue 动态 多 发 射 ” 实 现 多 
发 射 处 理 器 的 一 种 方式 ， 其 中 很 多 决策 是 
由 处 理 器 在 执行 阶段 做 出 的 。 

dynamic pipeline scheduling 动态 流水 线 调 度 
为 避免 阻塞 对 指令 进行 重 排序 的 硬件 支持 。 

dynamic random access memory (DRAM) 动 
态 随 机 访问 存储 ”构建 为 集成 电路 的 存储 
器 ， 它 提供 对 任何 位 置 的 随机 访问 。 访 
问 时 间 为 50 纳 秒 ，2012 年 每 千 兆 字 节 的 
成 本 为 5 到 10 美元 。 

dynamically linked libraries (DLL) 动态 链接 库 
在 程序 执行 过 程 中 被 链接 的 库 例 程 。 

edge-triggered clocking ”边沿 触发 的 时 钟 同步 
所 有 状态 的 改变 发 生 于 时 钟 沿 的 时 钟 机 制 。 

embedded computer 嵌入 式 计 算 机 ee 
行 一 个 预定 应 用 程序 或 软件 集合 的 另 一 
设备 内 的 计算 机 。 

EOR 异 或 ”二 元 操作 数 的 逻辑 按 位 运算 ,计算 
两 个 操作 数 的 异 或 。 也 就 是 说 ， 只 有 两 
个 操作 数 的 值 不 同时 ， 它 才 会 计算 1。 

error detection code 检 错 码 能够 检测 数据 中 
的 错误 并 纠正 错误 的 代码 ， 不 能 确定 错误 
的 准确 位 置 。 

exception 例外 (也 称 为 中 断 ) 一 种 打 断 程序 
执行 的 非 预期 的 事件 ， 用 于 溢出 检测 。 

exception enable 例外 使 能 (也 称 为 中 断 使 能 ) 
用 于 控制 处 理 器 是 否 响应 异常 的 信号 或 动 
作 ; 在 处 理 器 安全 地 保存 重启 所 需 信 息 之 
前 ， 必 须 阻止 异常 的 发 生 。 

executable file 可 执行 文件 一 个 具有 目标 文 
件 格 式 的 功能 程序 ， 不 包含 未 确定 的 引 
用 。 它 可 以 包含 符号 表 和 调试 信息 。” 
剥离 的 可 执行 程序 ”不 包含 这 些 信息 。 
能 包含 加 载 器 所 需 的 重 定位 信息 

exponent 指数 (也 称 为 阶 码 ) 在 浮 点 运算 的 数 
值 表 示 系 统 中 ， 放 置 在 指数 字段 中 的 值 。 

external label 外 部 标签 (也 称 为 全 局 标签 ) 
指向 一 个 对 象 的 标签 ， 该 标签 可 被 除了 定 
义 该 标签 的 文件 之 外 的 文件 引用 。 

false sharing 伪 共 享 ” 当 两 个 不 相关 的 共享 变 
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量 放 在 相同 的 cache 块 中 时 ， 尽 管 每 个 处 
理 器 访问 的 是 不 同 的 变量 ， 但 是 在 处 理 器 
之 间 还 是 将 整个 块 进行 交换 。 

field programmable devices (FPD) 现场 可 编程 
设备 包含 组 合 逻 辑 ， 以 及 可 能 的 存储 器 
设备 ， 且 可 由 最 终 用 户 配置 的 集成 电路 。 

field programmable gate array ( FPGA) 现场 
可 编程 门 阵列 ”一 个 包含 组 合 逻 辑 块 和 触 
发 器 的 可 配置 集成 电路 。 

fine-grained multithreading ” 细 粒 度 多 线程 硬 
件 多 线程 的 一 种 形式 ， 暗 示 每 条 指令 执行 
之 后 都 进行 线程 切换 。 

finite-state machine ”有限 状态 自动 机 由 一 组 
输入 和 输出 ， 以 及 下 一 状态 函数 和 输出 

函数 组 成 的 时 序 罗 辑 函数 。 下 一 状态 函数 

将 当前 状态 和 当前 输入 映射 为 一 个 新 的 状 
态 , 输出 函数 将 当前 状态 和 当前 输入 映射 
为 一 组 确定 的 输出 

flash memory 闪存 一 种 非 易 失 性 半导体 内 
存 ， 价 格 和 速度 均 低 于 DRAM， 但 每 一 
位 比 磁盘 昂贵 ， 比 磁盘 快 。 访 问 时 间 大 约 
为 5 到 50 微 秒 ，2012 年 每 千 兆 字 节 的 成 
本 为 0.75 到 1.00 美元 。 

flip-flop ”触发 器 ”一 个 存储 元 件 ， 其 输出 等 于 
元 件 内 部 存储 状态 的 值 ， 并 且 内 部 状态 仅 
在 时 钟 沿 上 改变 。 

floating point 浮 点 ”计算 机 算术 ， 表示 二 进 制 
点 不 固定 的 数字 。 

flush ”清除 ” 因 发 生 了 意外 而 丢弃 流水 线 中 的 指令 。 

formal parameter 形式 参数 ”过 程 或 者 宏 的 参数 ， 
一 旦 宏 被 展开 ， 这 个 参数 将 被 变量 替换 。 

forward reference 前 向 引用 一 个 标签 在 被 定 
义 之 前 就 被 使 用 。 

forwarding ”前 递 (也 称 为 旁 路 ) 一 种 解决 数据 
冒险 的 方法 ， 从 内 部 缓冲 中 取 回 数据 ， 而 


不 是 等 到 数据 从 程序 员 可 见 的 寄存 器 或 存 
储 器 中 到 达 。 

fraction 分 数 ” 值 通常 在 0 和 1 之 间 ， 放 置 在 
分 数字 段 中 。 

frame pointer 帧 指针 ”指向 给 定 过 程 中 保存 的 
寄存 器 和 局 部 变量 的 值 。 


fully associated cache 全 相 联 缓存 ”一 种 缓存 
结构 ， 一 个 块 可 以 放 在 缓存 中 的 任意 位 置 。 
fully connected network ”全 连接 网 络 通过 在 
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每 个 节点 之 间 提 供 专用 通信 和 链 路 ， 来 连接 
处 理 器 - 内存 节点 的 网 络 。 

fused multiply add 混合 乘 加 指令 一 个 浮 点 
指令 ， 既 执行 乘法 又 执行 加 法 ， 但 在 加 法 
后 只 舍 人 一 次 。 

gate 逻辑 门 ”实现 基本 逻辑 功能 的 设备 ， 如 
与 5 或 。 

global miss rate 全 局 失效 率 ”在 多 级 cache 中 
所 有 级 都 缺失 的 那 部 分 访问 。 

global pointer 全 局 指针 ”指向 静态 数据 区 的 保 
留 寄 存 器 。 

guard 保护 位 在 浮 点 数 的 中 间 计 算 期 间 ， 两 
个 额外 位 的 第 一 位 保持 在 右 侧 ; 用 于 提高 
舍 人 精度 。 

handler 处 理 程序 用 于 “处 理 ” 例 外 或 中 断 
的 软件 程序 的 名 称 。 

hardware description language 硬件 描述 语言 
一 种 用 于 描述 硬件 的 编程 语言 ， 用 于 生成 
硬件 设计 的 模拟 ， 也 可 作为 生成 实际 硬件 
的 综合 工具 的 输入 。 

hardware multithreading ”硬件 多 线程 ” 当 一 个 
线程 被 阻塞 时 ， 通 过 切换 到 另 一 个 线程 来 
提高 处 理 器 的 利用 率 。 

hardware synthesis tools 硬件 综合 工具 计 
算 机 辅助 设计 软件 ， 根 据 对 数字 系统 的 行 
为 描述 ， 可 生成 门 级 设计 。 

hexadecimal 六 进 制 ”基数 为 16 的 数 。 

high-level programming language 高 级 编程 语 
言 一 种 轻便 的 语言 ， 如 C、C++、Java 
或 Visual Basic， 由 单词 和 代数 符号 组 成 ， 
可 由 编译 器 翻译 成 汇编 语言 。 

hit rate 命中 率 ” 在 一 层 存储 层次 结构 中 找到 目 
标 数 据 的 存储 访问 比例 。 

hit time 命中 时 间 访问 某 存 储 器 层次 结构 所 
需要 的 时 间 ， 包 括 判 断 这 个 访问 是 命中 还 
是 缺失 所 需 的 时 间 。 

hold time 保持 时 间 ”在 时 钟 沿 之 后 ， 输 入 必须 
保持 有 效 的 最 短 时 间 。 

implementation ”实现 ”遵循 体系 结构 抽象 的 硬件 。 

imprecise interrupt 非 精确 中 断 (也 称 为 非 精 确 
异常 ) 流水 线 处 理 器 中 的 中 断 或 异常 ， 其 
不 与 导致 中 断 或 异常 的 指令 精确 地 关联 。 

in-order commit ” 按 序 提交 ”流水线 执行 的 结果 
以 取出 指令 的 顺序 写 回程 序 员 可 见 寄存 器 





的 一 种 提交 方式 。 

input device 输入 设备 ”为 计算 机 提供 信息 的 
装置 ， 如 键盘 和 鼠标 。 

instruction ”指令 计算 机 硬件 能 够 理解 并 且 遵 
循 的 命令 。 

instruction count ”指令 数 ”程序 执行 的 指令 数量 。 

instruction format 指令 格式 ”由 二 进 制 数组 成 
的 指令 表示 形式 。 

instruction latency 指令 延迟 指令 的 固有 执 
行 时间 。 

instruction-level parallelism ”指令 级 并 行 指 
令 间 的 并 行 性 。 

instruction mix 指令 混合 比例 ”一 个 或 多 个 程 
序 中 指令 的 动态 频率 的 度量 。 

instruction set architecture “指令 系统 体系 结构 
(也 称 为 体系 结构 ) 低层 次 软件 和 硬件 之 
间 的 抽象 接口 ， 包 含 了 写 一 段 能 正确 运行 
的 机 器 语言 程序 需要 的 所 有 信息 ， 包 括 指 
令 、 寄 存 器 、 存 储 访问 和 1/0 等 。 

integrated circuit ”集成 电路 (也 称 为 芯片 ) 一 
种 结合 数 十 至 数 百 万 个 晶体 管 的 器 件 。 

interrupt 中断 来 自 处 理 器 之 外 的 异常 (一些 体 
系 结构 对 所 有 的 异常 都 使 用 术语 “中 断 ”) 

interrupt handler 中 断 处 理 程序 ”一段 由 于 异 
常 或 中 断 而 运行 的 代码 。 

issue packet 发 射 包 在 一 个 时 钟 周 期 内 发 射 
的 多 条 指令 的 集合 。 这 个 包 可 以 由 编译 器 
静态 生成 ， 也 可 以 由 处 理 器 动态 生成 。 

issue slots 发 射 槽 ”指令 在 一 个 给 定 的 时 钟 周 
期 内 可 以 发 射 的 位 置 ; 做 一 个 类 比 ， 这 些 
位 置 对 应 着 冲刺 起 跑 的 位 置 。 

Java bytecode Java 字 节 码 一 个 指令 集中 ， 
为 了 解释 Java 程序 而 设计 的 指令 。 

just in time compiler ( JIT) 即时 编译 器 一 类 
通用 编译 器 的 名 称 ， 编 译 器 能 够 在 运行 时 
将 解释 的 代码 段 翻 译 成 宿主 计算 机 上 的 机 
器 语言 。 

latch 锁 存 器 一 个 存储 元 件 ， 其 中 输出 等 于 元 
件 内 部 存储 状态 的 值 ， 只 要 适当 的 输入 改 
变 并 且 时 钟 有 效 就 改变 状态 。 

latency (pipeline) 延迟 (流水 线 ) 流水 线 的 级 
数 ， 或 执行 过 程 中 两 条 指令 间 的 级 数 。 

least recently used ( LRU) 最 近 最 少 使 用 一 
种 替换 策略 ， 总 是 替换 最 长 时 间 没 有 被 使 





用 的 块 。 

least significant bit 最 低 有 效 位 ”RISC-V 双 字 
中 最 右 的 一 位 。 

level-sensitive clocking ” 电 平 敏感 的 时 钟 同步 
一 种 时 序 方法 ， 其 中 状态 变化 发 生 在 高 或 
低 时 钟 电 平 ， 但 不 是 瞬时 的 ， 因 为 这 种 变 
化 发 生 在 边沿 触发 设计 中 。 

linker 链接 器 (也 称 为 链接 编辑 器 ) 一 个 系统 
程序 ， 把 各 个 独立 的 汇编 机 器 语言 结合 起 
来 ， 并 且 确 定 所 有 未 定义 的 标记 ， 最 后 生 
成 可 执行 文件 。 

liquid crystal display ”液晶 显示 器 ”一 种 使 用 液 
态 聚 合 物 薄 层 的 显示 技术 ， 可 以 根据 是 否 
施加 电荷 来 传输 或 阻挡 光线 。 

load-use data hazard 载 入 一 使 用 的 数据 冒险 
一 种 特定 的 数据 冒险 ， 指 当 载 入 指令 要 取 
的 数据 还 没 取 回来 时 ， 其 他 指令 就 需要 该 
数据 的 情况 。 

loader 加 载 器 ”把 目标 程序 装载 到 内 存 中 以 准 
备 运 行 的 系统 程序 。 

local area network ( LAN) 局 域 网 一 种 在 一 
定 地 理 区 域 使 用 的 传输 数据 的 网 络 ， 通 常 
在 一 个 建筑 物 内 。 

local label 局 部 标签 ”指向 一 个 对 象 的 标签 ， 
只 能 在 定义 这 个 标签 的 文件 中 使 用 。 

local miss rate 局 部 失效 率 ”在 多 级 cache 中 ， 
某 一 级 cache 的 缺失 率 。 

lock 锁 一 个 时 刻 仅 允许 一 个 处 理 器 访问 数据 
的 同步 装置 。 

lookup tables ( LUT) 查找 表 在 现场 可 编程 设 
备 中 ， 由 少量 的 逻辑 和 RAM 组 成 的 单元 。 

loop unrolling 循环 展开 一 种 从 存 取 数组 的 循 
环 中 获取 更 多 性 能 的 技术 ， 其 中 循环 体会 
被 复制 多 份 并 且 不 同 循环 体 中 的 指令 可 能 
被 调度 到 一 起 。 

machine language 机 器 语言 在 计算 机 系统 
中 ， 用 以 交流 的 二 进 制 表示 形式 。 

macro 宏 一 种 模式 匹配 和 替换 技术 ， 为 常用 
的 指令 序列 提供 简单 的 命名 机 制 。 

magnetic disk ”磁盘 (也 称 为 硬盘 ) 由 磁性 记 
录 材 料 涂 覆 的 旋转 盘 片 组 成 的 非 易 失 性 二 
级 存储 器 形式 。 它 们 是 旋转 的 机 械 设备 ， 
访问 时 间 大 约 为 5 到 20 毫秒 ，2012 年 的 
每 千 兆 字 节 成 本 为 0.05 到 0.10 美元 。 
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main memory 主 存 用 于 在 程序 运行 时 保存 程序 。 
现代 计算 机 中 ,通常 由 DRAM 构成 内 存 。 

memory 内 存 程序 运行 时 的 存储 空间 ， 也 包 
含 程序 运行 时 所 需 的 数据 。 

memory hierarchy 存储 层次 一 种 由 多 存储 层 
次 组 成 的 结构 ， 存 储 器 的 容量 和 访问 时 间 
随 着 与 处 理 器 距离 的 增加 而 增加 。 

message passing 消息 传递 ”通过 显 式 发 送 和 
接收 信息 的 方式 在 多 个 处 理 器 之 间 通 信 。 

metastability ” 亚 稳 态 ”如 果 信 号 在 设置 和 保持 
时 间 不 稳定 时 进行 采样 ， 可 能 导致 信号 采 
样 值 落 入 高 值 和 低 值 之 间 的 不 确定 区 域 ， 
这 种 情况 即 为 亚 稳 态 。 

microarchitecture ” 微 体 系 结构 ”处理 器 的 组 织 
架构 ， 包 括 主要 的 功能 单元 及 它们 的 互 连 
关系 与 流水 线 控制 。 

million instructions per second ( MIPS) 每 秒 
百 万 条 指令 ”基于 数 百 万 条 指令 的 程序 执 
行 速度 的 度量 。MIPS 被 计算 为 指令 总 数 
除 以 执行 时 间 与 10" 的 乘积 。 

MIMD 多 指令 流 多 数据 流 ” 一 种 多 处 理 器 。 

minterms 小 项 (也 称 为 乘积 项 ) 通过 AND 操 
作 连 接 的 一 组 逻辑 输入 ; 乘积 项 形成 可 编 
程 逻辑 阵列 (PLA) 的 第 一 个 逻辑 阶段 。 

miss penalty 失效 损失 或 者 失效 代价 ”将 相应 
的 块 从 低层 存储 器 替换 到 高 层 存储 器 所 需 
的 时 间 ， 包 括 访问 块 、 将 数据 逐 层 传输 、 
将 数据 插入 发 生 缺 失 的 层 和 将 信息 块 传送 
给 请 求 者 的 时 间 。 

miss rate ”失效 率 ”在 高 层 存 储 器 中 没有 找到 目 
标 数据 的 存储 访问 比例 。 

most significant bit 最 高 有 效 位 在 RISC-V 
双 字 节 字 中 最 左边 的 一 位 。 

multicore microprocessor 多 核 微 处 理 器 在 
单一 集成 电路 上 包含 多 个 处 理 器 ( 核 ) 的 
微 处 理 器 。 当 今 几乎 所 有 台式 机 和 服务 器 
中 的 微 处 理 器 都 是 多 核 的 。 

multilevel cache 多 级 cache 存储 系统 由 多 级 
cache 组 成 ， 而 不 仅仅 只 有 主 存 和 一 个 缓存 。 


multiple issue 多 发 射 ” 一 种 单 时 钟 周期 内 发 射 
多 条 指令 的 机 制 。 
multiprocessor 多 处 理 器 ”一 种 至 少 有 两 个 处 理 


器 的 计算 机 系统 。 与 之 对 应 的 概念 是 单 处 
理 器 。 单 处 理 器 计算 机 只 有 一 个 处 理 器 ， 
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现在 这 种 计算 机 已 经 使 用 得 越 来 越 少 了 。 

multistage network 多 级 网 络 在 每 个 节点 上 
提供 小 型 交换 机 的 网 络 。 

NAND gate 与 非 门 ”一 个 倒置 的 与 门 。 

network bandwidth 网络 带宽 非 正式 用 语 ， 
用 于 表示 网 络 传输 速度 的 峰值 ; 既 可 以 指 
单一 链 路 的 速度 ， 也 可 以 指 网 络 中 全 部 链 
路 的 共同 传输 速度 。 

next-state function 下 一 状态 函数 ”根据 当前 
状态 及 当前 输入 来 确定 有 限 状 态 自 动机 下 
一 状态 的 组 合 函 数 。 

nonblocking assignment 非 阻塞 赋值 ”一 种 仅 
在 求 值 右 侧 后 才 继续 执行 的 任务 ， 只 有 在 
右 侧 全 部 被 求 值 后 才能 对 左 侧 进行 赋值 。 

nonblocking cache ” 非 阻 塞 cache 在 处 理 需 处 理 
前 面 的 cache 缺失 时 仍 可 正常 访问 的 cache。 

nonuniform memory access ( NUMA) 非 统 一 
存储 访问 ”使 用 单一 地 址 空间 多 处 理 需 的 
一 种 类 型 ， 某 些 存储 访 存 速 度 高 于 其 他 访 
存 ， 访 存 速度 与 访问 哪个 处 理 器 及 访问 哪 
个 字 相 关 。 

nonvolatile memory 非 易 失 性 存储 ”即使 在 没 
有 电源 的 情况 下 也 可 保留 数据 的 存储 器 形 
式 ， 用 于 在 运行 之 间 存 储 程序 。DVD 就 
是 非 易 失 性 存储 器 。 


nop 空 指令 ”一 种 不 进行 任何 操作 或 不 改变 任 
何 状态 的 指令 。 
NOR 或 非 具有 两 个 操作 数 的 逻辑 逐 位 操作 ， 


用 于 计算 两 个 操作 数 的 或 的 非 。 也 就 是 说 ， 
它 只 在 两 个 操作 数 中 都 有 0 时 才 计 算 为 1。 
NOR gate 或 非 门 ”一 个 倒置 的 或 门 。 
normalized 规格 化 ”没有 前 导 0 的 浮 点 数 。 
NOT 非 ”一 个 逻辑 逐 位 操作 ， 该 操作 将 操作 数 
反 转 ; 也 就 是 说 ， 用 0 替换 1， 用 1 替换 0。 
object oriented language 面向 对 象 语言 一 
种 面向 对 象 而 非 动 作 或 数据 的 编程 语言 。 
one’s complement 反 码 使 用 10...000; 表示 
最 大 负数 ，01...11; 表示 最 大 正 数 ， 正 数 
和 负数 的 数量 相同 ， 但 保留 两 个 零 ， 即 正 
零 (00...00: ) 与 负 零 ( 11...11; )。 该 术语 
也 用 于 表示 模式 中 每 个 位 的 反 转 ， 即 由 0 
变 1 或 由 1 变 0。 
opcode 操作 码 表示 指令 操作 和 格式 的 字段 。 
OpenMP OpenMP 语言 在 C、C++ 或 Fortran 


中 用 于 共享 内 存 多 处 理 编 程 的 API， 可 以 
运行 于 UNIX 和 Microsoft 平台 。 它 包括 
编译 器 指示 、 库 和 运行 时 指令 。 

OR 或 使 用 两 个 操作 数 的 逻辑 逐 位 操作 ， 只 要 
两 个 操作 数 中 有 一 个 为 1， 则 计算 结果 为 1 

out-of-order execution 乱 序 执行 ”流水 线 执行 
的 一 种 情况 ， 即 执行 的 指令 被 阻塞 时 不 会 
导致 后 面 的 指令 等 待 。 

output device 输出 设备 ”将 计算 结果 传送 给 用 
户 或 男 一 台 计 算 机 的 装置 。 


page fault 缺 页 异常 ” 当 访 问 页 面 不 在 主 存 中 
时 发 生 的 事件 。 


page table 页 表 该 表 包 含 虚拟 内 存 系统 中 的 
虚实 地 址 转换 。 页 表 存 储 在 内 存 中 ， 通 常 
由 虚拟 页 面 编 号 索引 ; 如 果 页 面 当前 在 内 
存 中 ， 页 表 中 的 每 个 条 目 都 包含 该 虚拟 页 
面 的 物理 页 号 。 

parallel processing program ”并 行 处 理 程序 可 
同时 运行 在 多 个 处 理 器 上 的 单一 程序 。 

PC-relative addressing PC 相对 寻 址 ”一 种 寻 
址 机 制 ， 它 将 PC 和 指令 中 的 常数 相 加 作 
为 寻 址 结果 。 

personal computer ( PC) 个 人 计算 机 专 为 个 
人 设计 的 计算 机 ， 通 常 包 含 图 形 显示 器 、 
键盘 和 鼠标 。 

personal mobile devices ( PMD) 个 人 移动 设 
备 ”连接 到 互联 网 的 小 型 无 线 设 备 ， 依 靠 
电池 供电 ， 并 通过 下 载 应 用 程序 来 安装 软 
件 。 典 型 的 例子 是 智能 手机 和 平板 电脑 。 

physical address ”物理 地 址 ” 主 存 中 的 地 址 。 

physically addressed cache 物理 地 址 cache 
使 用 物理 地 址 寻 址 的 cache 

pipeline stall 流水 线 停 顿 (也 称 为 气泡 ) 为 了 
解决 冒险 而 实施 的 一 种 阻塞 。 

pipelining 流水 线 一 种 实现 多 条 指令 重合 执 
行 的 技术 ,与 生产 流水 线 类 似 。 

pixel 像素 最 小 的 单个 图 片 元 素 。 屏 幕 由 数 
十 万 至 数 百 万 像素 组 成 ， 以 矩阵 形式 组 织 。 

pop 出 栈 从 堆栈 中 移 除 元 素 。 

precise interrupt ”精确 中 断 (也 称 为 精确 例外 ) 

流水 线 处 理 器 中 的 中 断 或 异常 与 导致 中 

断 或 异常 的 指令 精确 地 关联 。 

prefetching 预 取 使 用 特殊 指令 将 未 来 可 能 用 
到 的 指定 地 址 的 cache 块 提 前 搬 到 cache 
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中 的 一 种 技术 。 

procedure 过 程 根据 提供 的 参数 执行 特定 任 
务 的 存储 子 程 序 。 

procedure call frame “过程 调用 帧 ”用 来 保存 
被 调用 过 程 的 参数 ， 保 存 可 能 会 被 过 程 修 
改 的 寄存 器 的 值 ， 但 是 这 些 寄 存 器 的 值 不 
会 被 调用 者 所 修改 ， 并 为 被 调用 程序 的 局 
部 变量 提供 空间 。 

procedure frame 过程 帧 (也 称 为 活动 记录 ) 栈 
中 包含 过 程 所 保存 的 寄存 器 以 及 局 部 变量 
的 片段 。 

process 进程 包括 一 个 或 多 个 线程 、 地 址 空 
间 和 操作 系统 状态 。 因 此 ， 进 程 切换 通常 
调用 操作 系统 ， 而 不 是 切换 线程 。 

program counter ( PC) 程序 计数 器 包含 当前 
程序 正在 执行 的 指令 地 址 的 寄存 器 。 

programmable array logic ( PAL) 可 编程 阵列 
逻辑 PAL 由 一 个 可 编程 的 “与 ”平面 和 
一 个 固定 的 “或 ”平面 构成 。 

programmable logic array ( PLA) 可 编程 逻辑 
阵列 “可 编程 逻辑 器 件 的 一 种 ， 它 是 与 / 
或 阵列 均 可 编程 的 、 包 含有 记忆 元 件 的 大 
规模 集成 电路 ， 能 实现 任意 逻辑 函数 的 组 
合 电路 以 及 时 序 电路 。 

programmable logic device (PLD) 可 编程 逻辑 
器 件 包含 组 合 逻 辑 的 集成 电路 ， 其 功能 
由 最 终 用 户 配 置 。 

programmable ROM ( PROM) 可 编程 ROM 
一 种 只 读 存储 器 ， 可 在 设计 人 员 知 道 其 内 
容 时 进行 编程 。 

propagation time “传播 时 间 “从 输入 到 触发 天 
传播 到 触发 器 的 输出 所 需 的 时 间 。 

protection 保护 用 于 确保 共享 处 理 占 、 存 储 
器 或 110 设备 的 多 个 进程 不 会 有 意 或 无 
意 地 通过 读 取 或 写 人 彼此 的 数据 来 相互 干 
扰 的 一 组 机 制 。 这 些 机 制 还 将 操作 系统 
与 用 户 进 程 隔离 开 来 。 

pseudoinstruction ” 伪 指 令 ”汇编 语言 指令 的 一 
个 变种 ， 常 被 看 作 一 条 汇编 指令 。 

Pthreads 并 行 线程 用 于 创建 和 操作 线程 的 
UNIX API。 它 的 结构 是 一 个 库 。 

push 压 栈 向 栈 中 增加 元 素 。 

quotient 商 除法 的 主要 结果 
青 加 上 余数 得 到 被 除数 


该 数 乘 以 除数 


read-only memory ( ROM) 只 读 存 储 器 ”一 种 
存储 器 ， 其 内 容 在 创建 时 指定 ， 之 后 只 能 
读 取 内 容 。 ROM 用 作 结 构 化 逻辑 ， 通 过 
将 逻辑 功能 中 的 术语 用 作 地 址 输入 并 将 输 
出 用 作 存 储 器 的 每 个 字 中 的 位 来 实现 一 组 
逻辑 功能 。 

receive message routine 接收 消息 例 程 具有 
私有 存储 器 的 机 器 中 一 个 处 理 接收 来 自 其 
他 处 理 器 消息 的 例 程 。 

recursive procedures 递归 程序 通过 一 连 串 
的 调用 直接 或 间接 调用 自己 的 程序 。 

reduction 约 简 处 理 一 个 数据 结构 并 返回 单 
一 值 的 函数 。 

reference bit 引用 位 (也 称 为 使 用 位 或 访问 位 ) 

每 当 访 问 一 个 页 面 时 该 位 被 置 位 ， 通常 
用 来 实现 LRU 或 其 他 替换 策略 。 

reg 寄存 器 在 Verilog 中 是 一 个 寄存 器 。 

register file 寄存 器 组 (或 寄存 器 堆 ) 状态 元 
素 ， 由 一 组 寄存 器 组 成 ， 可 通过 提供 要 访 
问 的 寄存 器 编号 进行 读 写 。 

register renaming ”寄存 器 重 命名 由 编译 器 或 
硬件 对 寄存 器 进行 重 命名 以 消除 反 相 关 。 

register use convention 寄存 器 使 用 惯例 (也 
称 为 过 程 调用 惯例 ) 管理 过 程 (调用 ) 使 
用 寄存 器 的 软件 协议 。 

relocation information ” 重 定 位 信息 UNIX 目 
标 文件 中 的 一 段 ， 根 据 绝对 地 址 来 区 别 数 
据 字 和 指令 。 

remainder 余数 ”除法 的 次 要 结果 。 该 数 加 在 
商 和 除数 的 乘积 上 产生 被 除数 。 

reorder buffer 重 排序 缓冲 “动态 调度 处 理 器 中 
用 于 暂时 保存 执行 结果 的 缓冲 区 ， 等 到 安 
全 时 才 将 其 中 的 结果 写 回 寄存 器 或 存储 器 。 

reservation station 保留 站 功能 单元 的 缓冲 
区 ， 用 来 保存 操作 数 和 操作 。 

response time Also called execution time “ 响 
应 时 间 (也 称 为 执行 时 间 ) 计算 机 完成 
某 任务 所 需 的 总 时 间 ， 包 括 硬盘 访问 、 内 
存 访 问 、LO 活动 、 操 作 系统 开销 和 CPU 
执行 时 间 。 

restartable instruction ”可 重启 指令 “一 种 在 异 
常 被 处 理 之 后 能 从 异常 中 恢复 而 不 会 影响 
指令 的 执行 结果 的 指令 。 

return address 返回 地 址 指向 调用 点 的 链接 ， 
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使 过 程 可 以 返回 到 合适 的 地 址 。 

rotational latency 旋转 时 间 (也 称 为 旋转 延迟 ) 
使 得 合适 的 扇 区 旋转 到 读 / 写 头 下 的 时 间 。 

round 舍 入 使 中 间 浮 点 结果 符合 浮 点 格式 的 
方法 ， 目 标 通常 是 找到 可 以 形式 化 表示 的 
最 近 数 字 。 它 也 是 在 中 间 浮 点 计算 期 间 保 
留 在 右 侧 的 两 个 额外 位 的 第 二 个 的 名 称 ， 
这 提高 了 舍 人 精度 。 

scientific notation ”科学 记 数 法 ”使 用 小 数 点 左 
边 的 单个 数字 呈现 数字 的 表示 法 。 

secondary memory 辅助 存储 ” 非 易 失 性 存储 
器 ， 用 来 保存 两 次 运行 之 间 的 程序 和 数 
据 ; 在 现代 计算 机 中 ， 一 般 由 磁盘 组 成 。 

sector 扇 区 磁道 上 的 一 段 弧 称 为 忆 区 ， 是 磁 
盘 中 被 读 或 者 写 的 最 小 信息 块 。 

seek 和 寻 道 ”在 一 个 读 或 者 写 操作 中 ， 把 磁头 定 
位 到 合适 的 磁道 的 过 程 。 

segmentation 分 段 一 种 可 变 大 小 的 地 址 映射 
方案 ， 其 中 地 址 由 两 部 分 组 成 : 映射 到 物 
理 地 址 的 段 号 和 上段 偏 移 量 。 

selector value 选择 器 值 (也 称 为 控制 值 ) 用 
于 选择 多 路 复 用 器 的 输入 值 之 一 作为 多 路 
复 用 器 的 输出 的 控制 信号 。 

semiconductor 半导体 导电 能 力 介 于 导体 和 
绝缘 体 之 间 。 

send message routine 发 送 消息 例 程 具有 私 
有 存储 器 的 机 器 中 一 个 处 理 器 将 消息 发 送 
给 男 一 个 处 理 器 的 例 程 。 

sensitivity list ”敏感 变量 列表 ”指定 何 时 应 该 重 
新 评估 a1ways 块 的 信和 号 列表 。 

separate compilation 单独 编译 将 程序 划分 
成 多 个 文件 ， 每 个 文件 被 编译 时 ， 并 不 知 
道 其 他 文件 的 信息 。 

sequential logic ”时 序 逻 辑 一 组 包含 内 存 的 人 逻 
辑 单 元 ， 因 此 其 值 取 决 于 输入 以 及 内 存 的 
当前 内 容 。 

server 服务 器 ”用 于 为 多 个 用 户 运 行 较 大 程序 
的 计算 机 ， 通常 是 并 行 的 ， 并 且 通 常 只 能 
通过 网 络 访问 。 

set-associative cache 组 相 联 cache cache 
的 另 一 种 组 织 方 式 ， 块 可 以 放置 到 cache 
中 的 部 分 位 置 (至 少 两 个 )。 

setup time 建立 时 间 ”在 时 钟 沿 之 前 ， 存 储 器 
设备 的 输入 必须 有 效 的 最 短 时 间 。 





shared memory multiprocessor ( SMP) 共享 
存储 多 处 理 器 具有 单一 地 址 空间 的 并 行 
处 理 器 ， 存 取 时 采用 隐 式 通信 的 方式 ， 

sign-extend ”符号 扩展 ”为 增加 数据 项 的 长 度 ， 
将 原 数据 项 的 最 高 位 复制 到 新 数据 多 出 来 
的 高 位 。 

silicon 硅 一 种 自然 元 素 ， 是 一 种 半导体 。 

silicon crystal ingot 硅 锭 ”由 硅 唱 体 组 成 的 棒 ， 
直径 8 ~ 12 英寸 , 长 约 12 ~ 24 英 寸 。 

SIMD 单 指令 流 多 数据 流 同样 的 指令 在 多 个 
数据 流 上 操作 ， 和 向 量 处 理 器 或 阵列 处 理 
器 一 样 。 

simple programmable logic device ( SPLD) 简 
单 可 编程 逻辑 器 件 ”可 编程 逻辑 器 件 ， 通 
常 包含 一 个 PAL 或 PLA 

simultaneous multithreading ( SMT) 同时 多 线 
程 多 线程 一 个 版 本 ,通过 利用 多 个 问题 
所 需 的 资源 、 动 态 调 度 的 微 体系 结构 ， 降 
低 多 线程 成 本 。 

single precision 单 精 度 ”以 32 位 字 表 示 的 浮 

single-cycle implementation 单 周 期 实现 (也 称 
为 单 时 钟 周期 实现 ) 一 个 时 钟 周期 执行 一 
条 指令 的 实现 机 制 。 

SISD 单 指令 流 单数 据 流 一 个 单 处 理 器 。 

Software as a Service ( SaaS) 软件 即 服 务 
软件 不 再 是 安装 和 运行 在 客户 自己 的 计算 
机 上 ， 而 是 运行 在 远程 计算 机 上 ,通过 网 
络 来 使 用 。 典 型 情况 是 通过 网 络 接口 为 客 
户 服务 ， 然 后 根据 使 用 情况 向 客户 收费 。 

source language 源 语言 ”程序 最 初 编写 的 高 
级 语言 。 

spatial locality 空间 局 部 性 本 地 原则 指出 ， 
如 果 数 据 位 置 被 引用 ,那么 附近 地 址 的 数 
据 位 置 也 将 很 快 被 引用 。 

speculation ”推测 ”一 种 编译 器 或 处 理 器 推测 指 
令 结 果 以 消除 执行 其 他 指令 对 该 结果 依赖 
的 技术 。 

split cache 分离 cache 一 级 cache 由 两 个 独 
立 的 cache 组 成 ， 两 者 可 以 并 行 工作 ,一 
个 处 理 指令 ， 另 一 个 处 理 数据 。 

SPMD 单程 序 多 数据 流 ”传统 的 MIMD 编程 模 
型 ， 其 中 一 个 程序 在 所 有 处 理 器 上 运行 。 

stack 栈 被 组 织 成 后 进 先 出 队列 形式 并 用 于 
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寄存 器 换 出 的 数据 结构 。 

stack pointer 栈 指针 指示 栈 中 最 近 分 配 的 地 
址 的 值 。 它 指示 寄存 器 被 换 出 的 位 置 ， 或 
寄存 器 旧 值 的 存放 位 置 。 

stack segment 堆栈 段 ”程序 用 来 保存 过 程 调 
用 帧 的 那 段 内 存 。 

state element 状态 单元 
存 器 或 存储 器 。 

static data ”静态 数据 ”包含 数据 的 那 部 分 内 存 ， 
其 大 小 为 编译 器 所 知 ， 生 命 周 期 为 整个 程 
序 的 运行 时 间 。 

static multiple issue 静态 多 发 射 ”实现 多 发 射 
处 理 器 的 一 种 方式 ， 其 中 决策 是 在 执行 前 
的 编译 阶段 做 出 的 。 

static random access memory ( SRAM) 静态 
随机 访问 存储 器 ”一 种 存储 器 的 集成 电 
路 , 但 是 更 快 ， 比 DRAM 集成 度 低 。 

sticky bit ” 粘 灌 位 ”除了 保护 位 和 舍 入 位 之 外 ， 
还 有 一 位 也 用 于 舍 人 入， 只 要 舍 人 位 右 侧 有 
非 零 位 ， 就 设置 该 位 。 

stored-program concept 存储 程序 概念 ”多 种 类 
型 的 指令 和 数据 均 以 数字 形式 存储 于 存储 
器 中 的 概念 ， 存 储 程序 型 计算 机 即 源 于 此 。 

strong scaling 强 比例 缩放 在 多 处 理 器 上 不 
需 增 加 问题 规模 即 可 获得 的 加 速 比 。 

structural hazard 结构 冒险 ” 因 缺 乏 硬 件 文 持 
而 导致 指令 不 能 在 预定 的 时 钟 周期 内 执行 

structural specification ”结构 规范 ”描述 数字 系 
统 如 何 按照 单元 的 层次 连接 进行 组 织 。 

sum of products 积 之 和 ”逻辑 表示 形式 ， 将 使 
用 AND 运算 符 连 接 的 项 做 逻辑 和 (OR ) 
的 结果 。 

supercomputer 超级 计算 机 一 类 性 能 和 成 本 
最 高 的 计算 机 ; 它们 被 配置 为 服务 器 ， 通 
常 花费 数 十 亿美 元 到 数 亿 美元 。 

superscalar 超标 量 一 种 先进 的 流水 线 技术 ， 
通过 在 执行 期 间 选择 它们 ， 处 理 器 可 以 在 
每 个 时 锅 周 期 执行 多 条 指令 。 

supervisor mode ”超级 用 户 模式 (也 称 作 管理 态 、 
核心 模式 ) 运行 操作 系统 进程 的 模式 。 

swap space 交换 区 为 进程 的 全 部 虚拟 地 址 
空间 所 预 留 的 磁盘 空间 。 

symbol table 符号 表 用 来 将 标签 的 名 字 和 指 


一 个 存储 单元 ， 如 寄 








令 占 用 的 内 存 字 的 地 址 相 匹 配 的 表 。 

synchronization 同步 ”对 可 能 运行 于 不 同 处 理 
器 上 的 两 个 或 者 更 多 进程 的 行为 进行 协调 
的 过 程 。 

synchronizer failure 同步 故障 触发 器 进入 亚 
稳 态 ， 其 中 一 些 迎 辑 块 读 取 该 触发 器 的 输 
出 为 0， 但 是 其 他 逻辑 块 读 取 输 出 为 1。 

synchronous system 同步 系统 一 种 采用 时 
钟 的 存储 系统 ， 只 有 当时 钟 指示 信号 值 稳 
定时 才 读 取 数据 信和 号 。 

system call 系统 调用 ”将 控制 权 从 用 户 模式 转 
换 到 管理 员 模 式 的 特殊 指令 ， 触 发 进程 中 
的 一 个 异常 机 制 。 

system CPU time 系统 CPU 时 间 ”在 代表 程序 
执行 任务 的 操作 系统 中 花费 的 CPU 时 间 。 

systems software 系统 软件 ”提供 常用 服务 的 
软件 ,包括 操 作 系 统 、 编 译 程序 、 加 载 程 
序 和 汇编 程序 。 

tag 标签 ” 表 中 的 一 个 字段 ,包含 了 地 址 信息， 
这 些 地 址 信息 可 以 用 来 判断 缓存 中 的 字 是 
否 就 是 所 请 求 的 字 。 

task-level parallelism or process-level parallelism 
任务 级 并 行 或 进程 级 并 行 ” 通 过 同时 运行 
独立 程序 来 利用 多 个 处 理 器 。 

temporal locality ”时间 局 部 性 ”该 原则 规定 如 
果 一 个 数据 位 置 被 引用 ， 那 么 它 将 很 快 被 
重新 引用 。 

terabyte ( TB) 太 ( 即 兆 兆 字 节 ) 最 初 表 示 1 
099 511 627 776 ( 2”) 字 节 ， 尽 管 通信 和 
辅助 存储 系统 开发 人 员 开 始 使 用 该 术语 表 
示 1 000 000 000 000 (10”) 字 节 。 为 了 
减少 混淆 ， 我 们 现在 使 用 tebibyte ( TiB) 
这 个 术语 来 表示 2” 字 节 ， 定 义 TB 表示 
10” 字 节 。( 图 1.1 显示 了 十 进 制 和 二 进 制 
值 的 全 部 范围 和 名 称 。) 

text segment 代码 段 UNIX 目标 文件 中 的 段 ， 
包含 源 文件 中 例 程 对 应 的 机 器 语言 代码 。 

thread 线程 ”线程 包括 程序 计数 器 、 寄 存 器 状 
态 和 堆栈 。 这 是 一 个 轻 量 级 的 过 程 ; 线程 
之 间 通 常 共享 一 个 地 址 空间 ， 进 程 则 不 会 。 

three Cs model 3C 模 型 将 所 有 的 cache 缺失 
都 归 为 三 种 类 型 的 cache 模型 ， 三 类 分 别 
为 强制 缺失 、 容 量 缺 失 和 冲突 缺失 。 因 其 
三 类 名 称 的 英文 单词 首 字母 均 为 C 而 得 名 。 
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throughput 吞吐 率 (也 叫 带宽 ) 性 能 的 男 一 种 度 
量 参数 ， 表 示 单 位 时 间 内 完成 的 任务 数量 。 

tournament branch predictor 锦标 赛 分 支 预 测 
器 具有 多 种 预测 机 制 的 分 支 预测 器 。 其 
带 有 一 个 选择 器 ， 对 给 定 分 支 可 选择 其 中 
一 个 作为 预测 结果 。 

track ”磁道 ”磁盘 面 上 的 一 个 同心 圆 为 一 个 磁道 。 

transistor 晶体管 ”一 种 由 电信 和 号 控制 的 简单 
开关 。 

translation-lookaside buffer( TLB) 快 表 (也 称 
为 旁 视 缓冲 器 ) 用 于 记录 最 近 使 用 的 映 
射 信息 的 cache， 从 而 可 以 避免 每 次 都 要 
访问 页 表 。 

truth table 真 值 表 ”逻辑 操作 的 一 种 表示 方法 ， 
即 列 出 输入 的 所 有 情况 和 每 种 情况 下 的 
输 ; 4o 

underflow ( floating-point) 浮 点 下 浇 ”人 负 指数 
变 得 太 大 而 不 适合 指数 字段 的 情况 。 

uniform memory access ( UMA) 统一 存储 访问 
无 论 访 存 的 是 哪个 处 理 器 ， 也 无 论 访 存 的 是 
哪个 字 ， 访 存 时间 都 大 致 相同 的 多 处 理 器 。 

units in the last place ( ulp) 最 后 位 置 单位 实 
际 数 字 与 可 表示 数字 之 间 最 低 有 效 位 中 的 
错误 位 数 。 

unmapped 未 映射 ”地 址 空间 的 一 部 分 ， 在 这 
个 区 域 不 会 导致 缺 页 异常 。 

unresolved reference 未 解析 引用 需要 从 外 

部 获得 更 多 信息 以 进行 完善 的 引用 。 

引用 位 (也 称 为 使 用 位 、 访 问 位 ) 每 当 

访问 一 个 页 面 时 该 位 被 置 位 ， 通 常用 来 实 

现 LRU 或 其 他 替换 策略 。 

use latency 使 用 延迟 在 装载 指令 与 可 以 无 阻 
塞 使 用 其 结果 的 指令 间 相 隔 的 时 钟 周期 数 。 

user CPU time 用 户 CPU 时 间 在 程序 本 身 
花费 的 CPU 时 间 。 

valid bit 有 效 位 表 中 的 一 个 字段 ， 用 来 标识 
一 个 块 是 否 含 有 有 效 数据 。 

vector lane 向量 通 道 ” 一 或 多 个 向 量 功能 单元 
和 向 量 寄存 器 组 的 一 部 分 。 受 高 速 公 路 
上 提高 交通 速度 的 车 道 启 发 ， 多 车 道 同 时 
执行 向 量 操作 。 

vectored interrupt 向 量 式 中 断 ”由 异常 原因 决 
定 中 断 控制 转移 地 址 的 中 断 。 

Verilog ”两 种 最 常见 的 硬件 描述 语言 之 一 。 


use bit 





very-large-scale integrated ( VLSI)circuit 起 
大 规模 集成 电路 ”一 种 含有 数 十 万 至 数 
百 万 晶体 管 的 器 件 。 

very long instruction word (VLIW) 超 长 指令 字 
一 类 可 以 同时 启动 多 个 操作 的 指令 集 ， 其 
中 操作 在 单个 指令 中 相互 独立 ， 并 且 一 般 
都 有 独立 的 操作 码 域 。 

VHDL 两 种 最 常见 的 硬件 描述 语言 之 一 。 

virtual address 虚拟 地 址 虚拟 空间 的 地 址 ， 
当 需 要 访问 主 存 时 需要 通过 地 址 映射 转换 
为 物理 地 址 。 

virtual machine 虚拟 机 一 种 虚拟 计算 机 ， 它 
的 分 支 和 取 数 指令 没有 延迟 ， 且 指令 集 比 
实际 硬件 更 丰富 。 

virtual memory 虚拟 存储 ”一 种 将 主 存 用 作 辅 
助 存储 器 cache 的 技术 。 

virtually addressed cache 虚拟 地 址 cache 一 
种 使 用 虚拟 地 址 而 不 是 物理 地 址 访问 的 
cache。 

volatile memory storage 易 失 性 存储 ”如 DRAM， 

只 有 在 上 电 时 才 保 留 数据 。 

晶 圆 ”厚度 不 超过 0.1 英寸 的 硅 锭 片 ， 

用 来 制造 芯片 。 

weak scaling 弱 比 例 缩放 在 多 处 理 器 上 增加 
处 理 器 数量 的 同时 按 比例 增加 问题 规模 所 
能 获得 的 加 速 比 。 

wide area network ( WAN) 广域网 一 个 延伸 
数 百 公 里 的 网 络 ， 可 以 跨越 一 块 大 陆 。 

wire 线 在 Verilog 中 ， 指定 一 个 组 合 信号 。 

word 字 计算 机 中 的 基本 访问 单位 ,通常 是 
32 位 为 一 组 。 

workload 工作 负载 运作 在 计算 机 上 的 一 组 程 
序 ， 可 以 直接 使 用 用 户 的 一 组 实际 应 用 程 
序 ， 也 可 以 从 实际 程序 中 构建 。 

write buffer 写 缓冲 一 个 保存 等 待 写 入 主 存 数 
据 的 缓冲 队列 。 

write-back 写 返回 ” 当 发 生 写 操作 时 ， 新 值 仅 
仅 被 写 和 人 cache 块 中 ， 只 有 当 修 改过 的 块 
被 替换 时 才 写 到 较 低 层 存 储 结构 中 。 

write-through” 写 直达 (也 称 为 写 穿 透 ) 写 操作 
总 是 同时 更 新 主 存 和 cache， 以 保持 二 者 


wafer 


一 致 性 的 一 种 方法 。 
yield 成 品 率 (或 良 率 ) 合格 芯片 数 占 总 芯片 
数 的 百分比 。 


